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内 ¥ 简介 


面 对 大 基 的 地 理 空间 数据 ,空间 数据 分 析 成 为 分 析 挖 气 这 些 数据 、 信 
息 、 知 识 的 有 效 手段 。 本 书包 括 空间 数据 可 视 化 与 探索 分 析 、 空 间 统 计 学 、 
空间 智能 计算 ,空间 运筹 和 时 空 分 析 , 以 及 空间 分 析 软 件 包 等 内 容 。 本 书 涉 
及 的 各 种 方法 和 模型 均 附 有 真实 案例 和 数据 ,以 及 软件 操作 截屏 图 ,读者 可 
以 重复 这 一 过 程 ,输入 自己 的 数据 迅速 得 到 分 析 结 果 。 阅 读本 书 只 需 概率 
统计 的 基本 知识 。 

本 书 可 作为 地 学 和 社会 科学 等 专业 本 科 生 、 研 究 生 的 教材 ,同时 也 可 供 
地 理 信 息 科 学 及 相关 专业 师 生 阅读 参考 。 
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(如 有 印 装 质量 问题 ,我 社 负责 调换 ) 


BY 言 


有 空间 坐标 或 相对 位 置 的 数据 通称 为 空间 数据 ,如 发 病 率 在 各 社区 .乡村 的 分 
布 ,气象 台 站 监测 的 气温 、 降 水 ,辐射 ,大 气 污染 分 布 ,土壤 重金 属 含量 在 区 域 各 抽 
样 点 的 数值 ,全 国 各 省 、 直 辖 市 .自治 区 的 GDP, 区 域 社会 经 济 调查 (抽查 或 普查 ) 
数据 ,城市 各 路 段 的 瞬时 交通 流量 ,遥感 影像 各 像 元 的 光谱 值 等 。 

统计 学 是 数据 描述 ,总结 、 推 断 、 预 测 分 析 的 基本 方法 ,大 多 数 情 况 下 要 求 样本 
互相 独立 ,样本 大 、 多 次 重复 。 空 间 数据 通常 具有 互相 不 独立 性 .空间 异 质 性 .不 可 
重复 性 。 将 经 典 统计 学 理论 直接 运用 于 空间 数据 ,其 结论 将 是 有 偏 和 非 最 优 的 。 
经 过 地 理学 家 和 数学 家 近 50 年 的 研究 发 展 , 现 已 形成 了 空间 数据 特有 的 分 析 
理论 。 

拙 闭 (空间 分 析 氏 王 劲 峰 等 ,2006) 一 经 出 版 ,各 书店 和 和 售 书 网 站 很 快 告 融 ; 国 
内 外 的 几 位 地 理 信息 科学 著名 学 者 给 予 了 很 好 的 评价 ;作者 还 被 告知 该 书 被 剑桥 
大 学 地 理 系 推荐 为 参考 书 :作者 的 欣慰 还 特别 来 自 于 该 书 读者 的 评价 ,鞭策 作者 放 
下 手头 繁重 的 科研 工作 ,撰写 一 本 普及 地 理 信 息 科 学 知识 的 关于 空间 分 析 的 读本 。 

一 部 成 功 的 著作 ,不 仅 会 被 初学 者 视 为 深入 浅 出 的 入门 教材 ,而 且 也 会 被 该 领 
域 学 者 引用 。 其 成 功 的 秘诀 可 能 在 于 用 简单 的 语言 描述 深刻 复杂 的 问题 本 质 ,而 
不 是 用 较 多 的 数学 公式 作为 主要 语言 。 实 际 上 , 文字 和 数学 是 描述 一 个 对 象 的 两 
种 工具 。 对 于 复杂 的 问题 ,纯粹 用 语言 描述 经 常 难以 表达 复杂 的 关系 ,显得 力 不 从 
心 ;而 纯粹 用 数学 描述 ,不 易 被 大 多 数 读 者 理解 。 真 实 世 界 的 终极 本 质 可 能 是 简单 
的 和 相互 联系 的 ,时 间 C, ЖЖ M ЖЕШ E 分 别处 于 三 个 互相 垂直 维度 上 的 核心 
变量 , 竞 然 能 够 被 EE 二 MC* 如 此 简单 的 数学 方程 联系 起 来 ,反映 了 发 现 者 深刻 的 
洞察 力 ,也 揭示 了 “ 越 本 质 , 越 简 单 ” 这 一 真理 ,在 某 种 意义 上 ,“ 越 复杂 , 越 肤 浅 ”。 
科学 家 的 任务 应 当 是 将 复杂 留 给 自己 ,将 简单 奉献 给 人 他人。 是否 反映 了 问题 的 本 
质 ,读者 是 否 容易 理解 和 可 重复 ,是 作者 每 一 句 话 、 每 一 个 公式 的 最 佳 表达 方式 的 
唯一 标准 。 这 是 作者 在 写作 本 书 过 程 中 始终 铭记 的 。 

本 书 是 在 2006 年 已 经 出 版 的 (空间 分 析 ) 的 基础 上 重 写 的 ,对 原 书 进行 了 大 量 
简化 , 删 略 了 一 些 过 泛 的 内 容 , 添 加 了 一 些 在 空间 数据 分 析 中 被 证 明 是 强 有 力 的 最 
新 成 果 。 每 个 理论 和 模型 均 配 有 公开 免费 下 载 软件 的 操作 案例 ,运用 真实 典型 案 
例 ,step by step 的 软件 操作 步骤 截屏 图 。 这 对 读者 学 习 和 迅速 使 用 空间 数据 分 析 
理论 是 十 分 方便 的 。 本 书 被 六 选 为 普通 高 等 教育 “十 一 五 "国家 级 规划 教材 , 供 地 
学 ,环境 和 社会 科学 领域 的 本 科 生 研究生 自 学 ,并 供 授课 老师 和 研究 人 员 参 考 ， 
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2006 年 版 的 (空间 分 析 》 侧 重 理论 性 ,而 本 书 侧重 实用 性 。 
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出 生 缺 陷 , 是 婴儿 死亡 和 残疾 的 主要 原因 ,是 指 任何 功能 或 结构 异常 ,在 出 生 
或 其 后 表现 出 来 的 事件 。 出 生 缺 陷 是 由 出 生前 的 某 些 因 子 作 用 引起 的 ,包括 遗传 
性 和 获得 性 的 。 但 是 与 遗传 和 (或 ) 环 境 关联 的 风险 因子 很 难 精确 地 分 离开 来 。 空 
间 统 计 以 其 独特 的 切 人 点 对 此 实现 突破 。 以 下 以 中 国 山西 和 顺 县 出 生 缺 陷 的 环境 
与 遗传 因子 识别 为 例 演示 (Wu et al. ,2004) 。 

和 顺 县 地 处 山西 省 境 东 隆 ,太行 之 问 , 东 西 长 75km, 南 北 宽 30km, 总 面积 
2250km ,326 个 行政 村 ,总 人 口 14 万 (图 0. 1(a)) ,其 中 农业 人 口 11.8 万 ;地 势 高 
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图 0.1 和 顺 县 人 口 (a) .和 顺 县 神经 管 畸形 发 病 率 (b) 
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峻 ,以 山地 、 丘 陵 居多 ,一 般 海 拔 在 1300m 以 上 ; 属 温带 大 陆 性 气候 。 春 季 干 燥 多 
风 , 夏 季 温 暖 多 十 ,秋季 凉爽 ,阴雨 较 多 ,冬季 温 长 而 寒冷 。 年 平均 气温 6.3 C ,1 Н 
平均 气温 零下 10C 左 右 , 年 降水 593mm, 霜冻 期 为 9 月 中 旬 至 次 年 5 A FE, EF 
期 124 天 ;为 全 国 重点 产 煤 县 之 一 ,全 县 经 济 以 农业 为 基础 ,主要 种 植 玉 米 、 谷 子 、 
LL £5 8k 3E ,荞麦 等 杂粮 ;煤炭 工业 是 主导 ,煤炭 ,化 工 、 建 材 .冶金 四 大 行业 是 主 
体 , 有 县 属 焦化 厂 等 工厂 。 

获得 各 村 (i 二 1,2,…,N;NN 二 326)4 年 的 神经 管 畸 形 累计 发 病人 数 , 并 计算 发 
病 率 ( 图 0.1(b)), 记 为 y,, 使 用 局 域 Getis G* 统计 G; (qd) 探 测 发 病 热点 并 与 怀疑 
可 能 的 致 病因 子 空间 格局 比较 ,推断 研究 区 的 神经 管 畸形 发 病原 因 , 提 出 防 控 
措施 
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G; (qd) 近 似 于 正 态 分 布 。 在 零 假设 下 , 即 空间 对 象 的 属性 取 值 分 布 不 具有 空间 相 
KHG (d) 的 期 望 和 方差 分 别 为 0 和 1。 这 一 性 质 常用 来 衡量 空间 对 象 属性 的 
空间 相关 性 ,成 为 空间 事物 和 现象 的 热点 (hotspots) 探 测 的 有 效 手 段 。 

将 和 顺 县 y;,N BA G; CaD ,不 断 调 整 d 值 ,在 0 一 30km, 以 1km 为 步 长 ,发 
现在 d<7km 时 ,G”(d) 为 空间 聚集 状 (图 0.2), 随 d BEN с Aa: 34 d ik 
到 22km 时 ,出 现 明显 的 条 带 状 ( 图 0. 3), 

这 种 空间 尺度 现象 提示 我 们 应 寻找 其 解释 如 表 0. 1 所 示 。 


30.1 ”和顺 县 典型 距离 尺度 及 其 意义 


统计 项 距离 值 d/km 实际 意义 
偏僻 村 落 距 最 近 村 落 距 高 5. 848 日 常人 际 交 往 距离 
乡镇 中 心 相距 距离 6. 165~9. 309 研究 区 人 群 社会 经 济 日 活动 半径 
土壤 类 型 分 辨 距离 19. 5 一 30 土壤 ,地质 状况 类 型 变异 尺度 


(1) 在 该 区 的 人 群 社会 经 济 活动 的 基本 范围 内 ( 约 6. 84km) ,生活 习俗 .经 济 
状况 以 及 通婚 圈 范 围 等 对 出 生 缺 陷 产 生 影响 ,从 而 使 得 在 这 种 尺度 下 ,神经 管 畸形 
出 生 缺 陷 的 空间 分 布 热点 呈现 聚 团 分 布 状态 。 





图 0.2 社会 活动 半径 距离 尺度 下 聚 团 形 热点 区 域 分 布 (6. 84km) 


Getis G" 热 点 探测 (距离 22.8km) 


图 0.3 地 质 、 土 壤 变异 距离 太 度 下 条 带 形 热点 区 域 分 布 (22. 8km) 
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(2) 该 区 的 地 质 、 土 壤 等 自然 环境 状况 具有 条 带 状 分 布 的 特点 (图 0.4、 


图 0.5), 故 当 热 点 探测 采取 土壤 变异 尺度 作为 空间 权重 距离 阅 值 时 ,其 结果 呈现 
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条 带 状 热点 分 布 ,这 种 结果 表明 了 地 质 环境 对 神经 类 型 的 出 生 缺 陷 有 影响 。 自 然 
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图 0.4 和 顺 县 岩 性 类 型 分 布 示 意图 





90.5 和 顺 县 土壤 类 型 分 布 示意 图 


进一步 运用 Hb FAB PE MIZY ( Wang et al. ,2009a) ,可 以 发 现 健康 风险 多 种 影响 因 
素 的 交互 作用 :方式 和 程度 。 生 理 代谢 组 学 测试 (Zhang et al. ,2008) 验 证 了 地 理 
探测 器 的 发 现 ， 





0.2 空间 分 析 理 论 体系 


从 分 析 方 法 的 角度 ,空间 过 程 或 数据 分 为 三 类 :连续 数据 ,如 温度 分 布 等 , 钻 孔 
或 土壤 采样 可 通过 空间 插值 生成 连续 数据 ;多 边 形 数据 ,无 论 是 规则 还 是 不 规则 的 
遥感 图 像 像 元 ,如 统计 单元 内 的 社会 经 济 数据 ;点 数据 ,其 空间 位 置 是 重要 的 ,不 涉 
及 属性 值 ,如 禽 流 感 暴发 点 的 空间 分 布 等 。 每 类 数据 可 以 用 同样 的 空间 数据 分 析 
方法 。 空 间 过 程 的 一 般 形式 (Cressie,1991) 为 

; {Z(s):s€D} (0. 2) 
XB «D WER “WEEK” D OR! (实数 空间 ),d 为 维 数 。 假 设 Z(s) 在 某 一 点 s 上 
是 一 个 随机 变量 ,z(s) 是 其 观察 值 。 下 面具 体 地 介绍 空间 数据 。 

连续 数据 (continuous data) , 亦 称 地 统计 数据 (geostatistical data) „Ж DO 
RY 的 一 个 连续 固定 子 集 ,如 一 个 国家 内 在 一 些 地 点 上 抽取 的 臭氧 样品 ,一 个 野外 
场地 内 抽取 的 雪 深 样本 ,一 系列 气象 台 站 的 温度 值 ,不同 点 测量 的 高 度 值 、 土壤 样 
品 中 的 氮 浓 度 .湖水 样品 中 的 污染 浓度 等 。 

多 边 形 数据 (polygon data) ,也 称 为 面 数据 (areal data) . 格 数据 (lattice data) - 
这 里 DD 是 RY 的 一 个 可 数 但 是 固定 的 子 集 , 如 用 节点 表示 的 格 网 。 举例 ,一 个 县 里 
的 疾病 患者 数目 ,一 个 大 的 连续 地 点 的 动物 计数 ,果园 内 每 颗 树 上 的 蔬果 数目 、 一 
个 道路 系统 上 每 个 道路 段 的 机 动车 事故 数目 .每 段 河流 的 鱼 数 等 。 

点 数据 (point data) ,这 里 D J RY 的 一 个 随机 子 集 。 假 如 Z(5) 是 点 ;ED 上 
的 随机 向 量 , 则 它 就 是 标注 点 过 程 ,如 果 7(5)=1, 即 一 个 退化 随机 变量 ,那么 , 仅 
D 是 随机 的 , 称 为 空间 点 过 程 。 举例 ,森林 中 树木 的 位 置 、 天 空中 恒星 的 位 置 、 一 个 
区 域内 闪电 攻击 的 位 置 .肺癌 患者 的 居住 位 置 .动物 的 出 生 位 置 等 。 

1854 年 ,John Snow 通过 对 伦敦 霍乱 暴发 病例 的 空间 分 析 发 现 了 传染 源 , 从 
而 控制 了 疫情 的 继续 传播 ,成 为 空间 数据 分 析 和 流行 病 学 两 个 学 科 领 域 的 共同 起 
源 。 空间 连续 数据 分 析 的 理论 研究 起 源 于 地 质 学 的 钴 孔 数据 空间 插值 (Mather- 
on, 1963; Issaks and Srivastava, 1989; Christakos, 2005) ;空间 多 边 形 数 据 ( 或 称 格 
数据 ) 分 析 方 法 起 源 于 社会 经 济 统计 单元 数据 回归 (Cliff and Ord, 1981; Anselin, 
1988; Haining,1990,2003; 应 龙 根 和 宁 越 敏 ,2005) 和 计量 地 理学 (Fotheringham 
et al. ,2000; KH , 1984; Ж Ire 1994 ; (RIEME 2002 RAK FF , 2006) ;点 数据 分 析 起 
源 于 生态 学 样 方 分 析 (Diggle,1983) 。 另外 ,空间 点 状 或 连续 数据 之 间 的 空间 关系 
是 通过 点 间距 离 或 半 变异 函数 来 表达 的 ; 格 数据 的 空间 关系 通过 多 边 形 之 间 的 连 
接 和 矩阵 来 实现 和 表达 。 因 此 两 种 类 型 的 数学 模型 不 同 。 


— 空间 数据 分 析 教程 


实际 上 ,空间 数据 类 型 可 以 互相 转换 ,反映 不 同 的 问题 。 例 如 ,上 节 神 经 管 畸 
形 发 病 率 在 326 个 行政 村 的 空间 分 布 , 属 多 边 形 数据 ; 若 以 发 生 和 未 发 生 神 经 管 畸 
形制 图 , 则 形成 点 数据 ; 若 将 326 个 行政 村 神经 管 畸形 发 病 率 用 等 值 线 表达 , 则 生 
成 连续 数据 ;连续 数据 栅 格 化 生成 (规则 ) 多边形 数据 ,等 等 。Fotheringham 等 
(2000) 将 连续 数据 分 析 的 核心 内 容 Kriging 模型 和 多 边 形 数据 分 析 的 核心 内 容 
SAR/MA/CAR 回归 模型 统一 到 一 个 建 模 体 系 内 。 不 确定 性 始终 贯穿 于 空间 数 
据 及 其 转换 之 中 ( 柏 延 臣 和 王 劲 峰 ,2003; 葛 屿 和 王 劲 蜂 ,2003; 史 文 中 ,2005)。 

近年 , 随 着 数据 从 单纯 的 空间 数据 到 时 空 数据 的 积累 ,科学 研究 从 以 发 现 规律 
和 科学 预报 为 目的 ,发 展 到 科学 调控 的 理念 升华 ,学科 交叉 与 方法 互 鉴 ,时 空 数据 
分 析 (Christakos,2000) .时空 运筹 (Wang et al. ,2002a,2008; Wang and 11,2008; 
郑 新 奇 ,2004) ,数据 智能 计算 (Fischer and Leung, 2001; Li et al. ,2008; 黎 夏 等 ， 
2007) ,得 到 了 发 展 ,成 为 新 的 增长 点 。 遥 感 是 地 学 计算 有 广阔 前 景 的 一 个 应 用 领 
域 ( 周 成 虎 等 ,2009); 随 着 空间 数据 获取 的 方便 性 大 为 增加 ,在 拥有 共同 起 源 150 
年 之 后 ,近年 ,健康 领域 对 空间 分 析 理 论 技 术 需 求 大 量 增加 (McMichael, 2001; 
Wang et al. ,2006;Lai et al. , 2009; WR LZ , 2004) ,而 健康 领域 丰富 的 时 空 病例 数 
据 、 明 确 的 研究 对 象 . 可 验证 的 研究 结果 ,为 空间 分 析 理 论 研 究 提供 了 理想 的 实践 
领域 。 


0.3 本 书 结构 


依据 上 节 讨 论 的 空间 数据 分 析 的 理论 体系 ,本 书 内 容 包 括 当 今 主流 的 空间 数 
据 可 视 化 与 探索 分 析 .空间 统计 学 ,空间 智能 计算 、 空 间 运筹 和 时 空 分 析 以 及 空间 
分 析 软 件 包 , 共 22 章 。 每 章 大 体 遵循 问题 的 提出 原理、 案例 .软件 操作 和 数学 模 
型 的 体例 ,达到 学 以 致 用 的 目的 。 

表 0. 2 是 空间 分 析 的 理论 体系 框架 以 及 各 章 在 该 体系 中 的 位 置 和 具体 内 
容 。 空 间 分 析 的 研究 目标 包括 :空间 数据 的 可 视 化 和 探索 分 析 、 参 数 获取 、 格 局 
识别 .空间 预报 ,空间 运筹 ,时空 分 析 等 内 容 ; 空 间 分 析 的 研究 对 象 包括 点 数据 和 
格 数据 ,这 些 数据 属性 包括 位 置 和 数值 ;分 析 方 法 包括 统计 方法 和 智能 计算 类 
方法 。 


R02 本 书 结构 
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第 1 章 GIS Wj jr 


生活 中 ,我 们 常常 会 面临 这 样 的 问题 :采用 哪 条 路 线 会 使 到 达 目 的 地 的 距离 最 
短 ? 如 何在 综合 考虑 到 达 超 市 ,学校 ,公司 .游乐 场 等 设施 的 方 使 程度 后 ,挑选 一 处 
合适 的 住宅 ?在 过 去 的 一 年 里 , 某 县 的 土地 利用 情况 发 生 了 怎样 的 变化 ? 城市 规 
划 中 如 何 才能 合理 地 布置 地 下 管线 ? 对 于 某 一 类 疾病 的 患 病人 口 , 在 空间 上 呈现 
怎样 的 分 布 ? 在 一 次 伴随 有 大 风 的 森林 火灾 中 ,火势 将 如 何 发 展 ? 

对 于 上 述 问题 以 及 其 他 更 多 的 类 似 问 题 ,都 与 地 理 环境 及 其 地 理 过 程 密切 相 
关 。 地 理 信息 系统 领域 的 人 都 很 清楚 ,要 回答 上 述 问题 ,就 需要 访问 具有 多 维 (x、 
yz 空间 坐标 ,t 时 间 坐 标 ,属性 ) 的 、 大 容量 的 地 理 信息 (Longley et al. ,1999)， 

地 理 信 息 系 统 (geographical information system,GIS) 是 一 种 信息 查询 ,分 析 
和 决策 支持 系统 ,其 特点 是 存储 和 处 理 的 信息 是 经 过 地 理 编码 的 ,地 理 位 置 及 与 该 
位 置 有 关 的 地 物 属性 信息 成 为 信息 检索 的 重要 部 分 。 在 地 理 信息 系统 中 ,现实 世 
界 被 表达 成 一 系列 的 地 理 要 素 和 地 理 现 象 ,这 些 地理 特 征 至 少 由 空间 位 置 参考 信 
息 和 非 位 置信 息 两 个 部 分 组 成 ( 邬 伦 等 ,2001)。 

从 20 世纪 60 年 代 至 今 ,GIS 已 迅速 发 展 成 为 一 个 独特 的 研究 领域 ,并 应 用 于 
区 域 规划 .土地 管理 ,水 利水 资源 管理 .旅游 管理 ,城市 管理 .交通 、 了 卫生, 农业 .军事 
等 领域 ,形成 一 个 全 球 性 的 重要 行业 。 


L1 $ 6 


GIS 是 用 来 管理 .分 析 空 间 数据 的 信息 系统 ,几乎 所 有 使 用 空间 数据 的 部 门 都 
可 以 应 用 GIS, 以 提高 管理 水 平 。 本 节 简 要 介绍 地 理 信 息 系统 在 一 些 具体 领域 的 
应 用 。 


1， 环 境 保护 


随 着 经 济 的 发 展 , 环 境 污染 直接 影响 了 人 们 的 生活 质量 ,环境 质量 问题 也 得 到 
了 越 来 越 多 的 重视 。 在 环境 保护 建设 中 ,GIS 作为 信息 工具 平台 和 信息 服务 平台 ， 
能 够 把 各 种 环境 信息 同 地 理 位 置 和 有 关 视 图 结合 起 来 提供 给 环保 工作 者 。 其 最 大 
的 特点 在 于 把 环境 中 的 各 种 信息 与 反映 地 理 位 置 的 图 形 信息 有 机 结合 在 一 起 
(图 1. D ,并 根据 需要 对 这 些 信息 进行 相关 和 综合 分 析 。GIS 技术 被 充分 利用 到 环 
境 领 域 中 ,在 提高 环境 保护 工作 效率 的 同时 ,也 影响 着 环境 保护 工作 方式 的 转变 。 
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图 1.1 GIS 在 环境 中 的 应 用 示例 
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2. BERR 


GIS 是 评估 潜在 危险 的 强大 工具 ,评估 灾害 可 能 在 哪里 发 生 , 它 们 可 能 造成 什么 
样 的 影响 ,伤害 和 损失 等 。GIS 把 事 发 位 量 "TW 追踪 路 径 .传感器 .视频 以 及 其 他 与 
GIS 数据 相关 的 动态 数据 (影像 高 程 .街道 ,重点 基础 设施 等 ) 与 交通 ,医院 ,气象 结 

合 起 来 ,能 够 为 决策 者 提供 有 力 的 支持 。 当 危机 出 现时 ,GIS 会 为 应 急行 动 计划 的 制 
iT НЫНЫ RK HE LSE HE SEAT (EA BY СРЯ 1.2), GIS 支持 应 
急 管 理 的 所 有 阶段 ,包括 灾情 缓解 .预防 和 准备 .快速 反应 以 及 恢复 重建 . 


3. 交通 运输 


GIS 在 交通 方面 的 应 用 得 到 了 广泛 的 重视 ， 并 形成 了 专门 的 交通 地 理 信息 系 
统 GIS-T(GIS-transportation)。 它 是 GIS 在 勘测 设计 、 规 划 , 管 理 等 交通 领域 中 
的 具体 应 用 ;GIS-T 通过 地 理 信 息 系 统 与 多 种 区 通信 息 分 析 和 处 理 技术 的 集成 ， 
可 以 为 交通 规划 交通 控制 .交通 基础 设施 管理 ,物流 管理 ,货物 运输 管理 提供 操作 
平台 ,如 运输 企业 可 以 借助 路 径 选 择 功 能 ,对 营运 线路 进行 优化 选择 ， 并 根据 专用 
地 图 的 统计 分 析 功 能 ,分 析 客 货 流量 变化 情况 (图 1. З) ,制订 行车 计划 。 运 输 管理 
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图 1.2 飓风 Ivan 轨迹 跟踪 及 波浪 高 度 预 测 
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部 门 还 可 以 利用 它 对 危险 品 等 特种 货物 运输 进行 路 线 选择 和 实时 监控 。 
4. 国土 资源 管理 


国土 资源 包括 土地 资源 .矿产 资源 及 海洋 资源 ,这 些 资源 都 分 布 在 一 定 地 理 
空间 环境 中 , 和 地 理 位 置 密切 相关 。 在 国土 资源 管理 中 ,经常 需要 对 这 些 资 源 进 
行 空间 定位 ,面积 测算 .类 型 调查 以 及 权 属 确认 等 。 国 土 资源 的 这 些 特 点 ,决定 
了 国土 资源 信息 天 然 就 是 一 种 地 理 信 息 ( 图 1. 4) 。 地 理 信息 系统 最 早 应 用 在 资 
源 环 境 管理 中 ,目前 已 经 广泛 应 用 于 资源 环境 (如 森林 矿产. 水利, 农业 、 牧 业 
等 ) 管 理 ,自然 资源 (如 林业 、 地 质 矿 藏 .水 资源 等 ) 调 查 ,自然 灾害 (如 水 灾 . 旱 
灾 、 虫 灾 、 震 灾 等 监测、 预报、 评估 ,环境 保护 (如 水 土 流失 荒漠 化 等 的 治理 ) 等 
方面 ( 陆 守 一 等 ,2001) 。 
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图 1.4 土地 利用 规划 管理 信息 系统 
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5. 公共 卫生 


公共 卫生 是 一 个 涉及 微观 结构 和 宏观 系统 的 多 分 支 科学 ,是 大 基数 据 具 有 空 
间 分 布 特点 。 传 染病 的 发 生 与 流行 .地方病 的 分 布 及 病因 .许多 疾病 的 地 方 高 发 性 
特点 以 及 医药 卫生 机 构 的 分 布 等 都 与 空间 信息 密切 相关 。 同 时 ,健康 和 疾病 受到 
各 种 生活 方式 和 环境 因素 的 影响 ,这 些 具有 定位 特点 的 影响 因素 ,为 健康 与 环境 的 
流行 病 学 研究 提供 了 有 价值 的 线索 。 医 学 数据 资料 的 这 种 空间 相关 特点 成 为 GIS 
应 用 的 前 提 。GIS 在 公共 卫生 中 的 应 用 包括 疾病 监测 及 流行 病 学 研究 .环境 健康 
研究 .卫生 服务 利用 与 决策 .公共 卫生 突 发 事件 的 应 急 处 理 等 。 


1.2 GIS ж ш 


一 个 GIS 的 建立 涉及 地 理 表达 、 空 间 参考 .空间 数据 模型 三 个 概念 ,这 里 简介 
其 基本 概念 及 内 容 。 


1. 地 理 表 达 


地 理 空 间 的 表达 方法 可 以 概括 为 矢量 、 栅 格 、 三 角形 不 规则 网 .Voronoi 等 几 
类 。 地 理 表 达 是 地 理 数据 组 织 ,. 存 储 、 分 析 的 基础 。 以 此 为 基础 ,可 以 构造 地 理 空 
间 各 种 不 同 的 数据 模型 和 数据 结构 。 在 构建 地 理 表达 时 ,必须 对 表达 内 容 、 展 示 细 
节 的 程度 以 及 跨越 的 时 间 段 进行 选择 。 同 时 ,众多 的 选择 也 为 GIS 工作 者 提供 了 
许多 创作 机 会 。 


2. 空间 参考 


介绍 空间 参考 之 前 ,首先 简介 坐标 系统 .基准 面 .椭圆 体 .投影 4 个 概念 。 

1) 坐标 系统 

有 3 种 比较 流行 的 坐标 系统 :地 心 坐 标 系统 、 球 坐标 系统 、 笛 卡 儿 坐标 系统 
由 于 笛 卡 儿 坐 标 系统 的 广泛 性 ,这 里 对 其 做 重点 介绍 。 

笛 卡 儿 坐 标 系统 是 一 种 “平面 "的 坐标 系统 ,这 种 坐标 系统 是 二 维 的 ,这 里 的 平 
面 两 个 字 加 上 引号 是 因为 地 球 的 表面 不 是 真 的 是 平面 ,而 是 一 种 球面 . 在 实践 中 
用 得 最 多 的 一 种 就 是 通用 横 轴 墨 卡 托 投影 系统 (universal transverse mercator, 
UTM), 但 是 具体 到 地 球 上 某 个 地 方 的 时 候 ,测量 人 员 一 般 不 会 直接 采用 这 种 投 
影 ,而 是 一 种 成 为 本 地 平面 投影 坐标 系统 ,这 涉及 本 地 基准 面 等 概念 。 i TE RIL 
坐标 系统 ,人 们 可 以 非常 方便 地 在 地 图 上 进行 长 度 、 角 度 和 面积 等 各 种 量 算 。 

2) 基准 面 和 椭圆 体 

借助 现在 的 卫星 监测 技术 ,我 们 已 经 知道 地 球 其 实 是 一 个 不 规则 的 球状 体 . 
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体 主 要 通过 它 的 长 半 轴 和 扁 率 来 描述 。 

有 了 这 个 椭圆 体 , 我 们 就 可 以 引出 一 系列 的 概念 来 帮助 描述 地 球 的 形状 。 椭 
圆 体 的 中 心 和 方位 构成 了 所 谓 的 基准 面 , 即 利 用 特定 椭 球 体 对 特定 地 区 地 球 表面 
的 逼近 而 形成 所 谓 的 基准 面 。 通 过 在 椭圆 体 上 的 一 系列 点 ,我 们 可 以 定义 地 球 的 
中 心 。 如 果 在 地 球 的 表面 建立 一 系列 的 控制 点 ,但 是 由 于 大 陆 漂移 的 存在 ,这 些 一 
开始 定义 的 控制 点 每 年 都 会 变化 。 已 经 流行 的 基准 面 种 类 非常 多 ,有 些 是 用 来 进 
行 全 球 范围 内 的 测量 ,有 些 是 用 来 进行 地 球 上 局 部 地 区 的 测量 。 

比较 常见 的 基准 面 有 :World Geodetic System 1984(WGS84) , 主要 用 于 全 球 
范围 内 的 测量 和 定位 ; European Datum1953 ( ED50) , 主要 用 于 欧洲 地 区 ; North 
American Datum 1983(NAD83) , 主要 用 于 北美 地 区 ;而 中 国 主要 有 北京 54 和 西 
Че 80 两 种 基准 面 。 其 中 最 为 有 名 的 就 是 WGS84,GPS 系统 就 是 采用 了 这 种 基准 
面 , 它 比 较 好 地 逼近 了 整个 地 球 范围 。 

3) 投影 

需要 投影 的 理由 很 简单 ,我 们 看 到 的 地 图 或 者 在 计算 机 屏幕 看 到 的 地 图 都 
是 平面 的 或 者 说 是 二 维 的 ,但 是 地 球 却 不 是 平 的 。 所 以 必须 想 出 一 种 办 法 让 地 
球 表面 上 的 点 跟 平面 上 的 点 一 一 对 应 起 来 ,而 这 种 变换 的 结果 就 是 把 地 球 表面 
的 点 对 应 到 笛 卡 儿 坐 标 系统 中 。 .投影 的 方式 主要 有 3 种 ,如 图 1.5 所 示 。 每 一 
种 投影 都 会 有 不 同 程度 的 变形 ,要 么 是 长 度 变 形 , 要 么 是 角度 变形 ,要 么 是 面积 
变形 。 

圆柱 投影 圆锥 投影 方位 投影 


` 
c 
g 





图 1.5 3 种 地 图 投影 方式 
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空间 参考 总 的 来 说 就 是 上 面 几 个 概念 的 综合 ,就 是 从 比较 概括 的 角度 来 说 明 
如 何 把 地 球 上 的 点 最 终 转 换 到 平面 上 去 。 空 间 参 考 首先 需要 一 个 椭圆 体 ,由 这 个 
椭圆 体 派 生出 一 个 基准 面 ,在 基准 面 的 基础 上 选择 不 同 的 坐标 系统 ,把 球面 上 的 点 
转换 到 平面 上 去 。 


3. 空间 教 据 模型 


在 计算 机 中 ,现实 世界 是 以 各 种 符号 形式 来 表达 和 记录 的 ,必须 经 过 对 现实 世 
界 的 数据 描述 。 

在 地 理 信息 系统 中 ,有 关 空 间 目 标 实体 的 描述 数据 可 分 为 3 种 类 型 :空间 特征 
数据 ,时间 属性 数据 和 专题 属性 数据 。 对 于 绝 大 部 分 地 理 信息 系统 的 应 用 来 说 ,时 
间 和 专题 属性 数据 结合 在 一 起 共同 作为 属性 特征 数据 ,而 空间 特征 数据 和 属性 特 
征 数 据 统称 为 空间 数据 。 空 间 数据 通过 观察 或 量 测 获得 ,或 是 通过 进一步 的 计算 
获取 。 

空间 数据 可 根据 它们 的 收集 方式 .存储 方式 .说 明 内 容 、 使 用 目标 等 ,用 不 同 
的 数据 模型 进行 组 织 。 地 理 信 息 系 统 中 最 常用 的 数据 组 织 方式 为 矢量 模型 和 栅 
格 模型 。 在 矢量 模型 中 ,用 点 ` 线 , 面 表 达 世 界 ,在 栅 格 模型 中 用 空间 单元 (cell) 
或 像 元 (pixel) 来 表达 。 图 1. 6(a) 表 达 了 这 一 从 真实 世界 到 计算 机 存储 的 “空间 
表达 ”过程 。 而 GIS 中 所 存储 的 属性 表 ( 图 1. 6(b) ) 是 空间 数据 分 析 的 具体 操作 
对 象 。 





点 位 数据 场 和 对 象 点 / 线 / 面 
(a) 
上 个 变量 的 观测 数据 位 W 
z,(1) at) ^ e 2201) sp 情形 1 
z (2) zy(2) я z, (2) s(2) 情形 2 
zin) za (n) s. z, (n) s(n) 情形 n 


(b) 
图 1.6 supe (a) ASS [B] BH AB II Cb) 


空间 数据 是 对 现实 世界 中 空间 特征 和 过 程 的 抽象 表达 。 由 于 现实 世界 的 复杂 
性 和 模糊 性 ,以 及 人 类 认识 和 表达 能 力 的 局 限 性 ,这 种 抽象 表达 只 能 是 一 定 程度 的 
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接近 真 值 ,因此 ,数据 质量 发 生 问题 是 不 可 避免 的 。 同 时 ,对 空间 数据 的 处 理 也 会 
导致 一 定 的 质量 问题 。 


13 ArcGIS 软件 使 用 步 又 
1. ArcGIS 简介 


ArcGIS 是 目前 世界 上 使 用 最 广泛 的 GIS 软件 ,是 由 美国 ESRI 公司 (Envi- 
ronmental Systems Research Institute Inc. ) 研 发 的 。 该 公司 1969 年 成 立 于 美国 
加 利 福 尼 亚 州 的 Redlands 市 ,从 事 GIS 工具 软件 的 开发 和 GIS 数据 生产 ,其 创 
始 人 是 原 哈佛 大 学 空间 分 析 实 验 室 的 Jack DangerMond, ArcGIS 系列 是 ESRI 
公司 一 个 全 面 的 .完善 的 .可 伸缩 的 GIS 软件 平台 ,针对 不 同 用 途 , 可 分 为 如 下 几 
部 分 (图 1.7), 





图 1.7 ArcGIS 框架 


CD 桌面 GIS。 桌 面 GIS(Desktop GIS) 软 件 产品 是 用 来 编辑 ,设计 ,共享 . 管 
理 和 发 布地 理 信息 的 。ArcGIS 桌面 可 伸缩 的 产品 结构 ,从 ArcReader, 向 上 扩展 
到 ArcView, ArcEditor 和 ArcInfo, 前 ArcInfo 被 公认 为 是 功能 最 强大 的 GIS 
产品 。 通 过 一 系列 的 可 选 软件 扩展 模块 ,ArcGIS Desktop 产品 的 能 力 还 可 以 进 一 
ET Ke. 

(2) 服务 器 GIS. IR # GIS (Server GIS) 包括 ArcGIS Server, ArcGIS 
Explorer, ArcGIS Image Server 和 ArcIMS, Ж 于 创建 和 管理 基于 服务 的 GIS 应 
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用 程序 ,在 大 型 机 构 和 互联 网 上 众多 用 户 之 间 共 享 地 理 信息 。 

(3) 移动 GIS。 移 动 GISCMobile GIS) 如 ArcPad, 支持 GPS 的 无 线 移动 设 
备 , 越 来 越 多 地 应 用 在 野外 数据 采集 和 信息 访问 中 。ArcGIS Mobile 和 ArcGIS 
Desktop 可 以 运行 在 便携 式 电 脑 或 平板 电脑 上 ,用 户 可 以 在 野外 进行 数据 采集 ,分 
析 乃 至 制定 决策 。 

(4) 开发 GIS。 开 发 GIS(Developers GIS) 包 括 EDN( 开 发 者 网 络 ) 和 ArcGIS 
Engine, ArcGIS Engine 是 一 个 完整 的 宜人 入 式 GIS 组 件 库 和 工具 包 , 开 发 者 能 用 
它 创建 一 个 新 的 或 扩展 原 有 的 可 定制 的 桌面 应 用 程序 。 

(5) Geodatabase 技术 。 以 上 所 有 的 软件 都 可 以 使 用 Geodatabase 技术 ,为 
ArcGIS 提供 核心 的 地 理 数 据 模型 和 数据 管理 框架 。 


2. ArcMap 操作 简介 
ArcMap 是 ArcGIS Desktop 中 一 个 主要 的 应 用 程序 ,具有 基于 地 图 的 所 有 功 


能 ,包括 制图 .地 图 分 析 和 编辑 。 本 练习 通过 使 用 ArcGIS 自 带 数据 来 简单 介绍 
ArcMap 的 基本 操作 。 


第 一 步 ， iom Ê ,打开 ArcMap, 
第 二 步 ,进入 系统 后 ,会 弹出 启动 对 话 框 ,对 话 框 中 提供 多 种 启动 ArcMap 任 
务 的 方式 ,本 练习 选择 打开 一 张 现 有 地 图 (图 1.8). 


-Start using Агсйар with 一 


| a) F А pev enpty тар 
{ 
| 

Es] C A template 


Tesplates provide ready-to-use layouts and 
base maps for various geographic regions. 


[ Immediately add data 
[^ ро net shew this dialog again 
f^ Load lest map on startup 





图 1.8 打开 一 张 现 有 地 图 


第 三 步 ,打开 ArcMap 提供 数据 Map 文件 夹 中 的 airport 文件 (该 数据 的 默认 
安装 路 径 为 C:\ArcGIS\ArcTutor\Map) (图 1.9. 图 1. 10), 
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图 1.9 打开 地 图 文件 airport. mxd 
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fl 1.10 ArcMap 主 界面 
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第 四 步 ,浏览 地 图 : 

(1) ArcMap 中 ,主要 的 地 图 操作 工具 如 图 1. 11 所 示 ( 从 左 到 右 ,从 上 到 下 依 
次 为 选 定 区 域 放 大 地 图 、 选 定 区 域 缩小 地 图 、 定 点 放大 
地 图 、 定 点 缩小 地 图 ,平移 地 图 、 将 地 图 放 至 最 大 范围 、 
到 上 一 个 地 图 、 到 下 一 个 地 图 ,选择 地 物 、 取 消 地 物 选 
择 、 选 择 、 查 询 、 搜 索 、 定 位 ,测量 距离 . 超 链接 )， 

(2) Jil; € 按钮 ,然后 在 欲 放 大 区 域 按 住 鼠 标 左 键 
拖 画 矩形, 即 可 将 该 区 域 放 大 。 同 理 可 进行 缩小 .平移 
等 操作 (图 1.12), 

(3) 显示 一 个 图 层 (图 1. 13)。 内 容 列 表 选 项 可 控 
制图 层 的 显示 与 否 。 通 过 色 选 schools 和 runways 来 加 
载 学 校 和 机 场 跑道 两 个 图 层 。 

(4) 变换 显示 符号 。 首 先 点 击 欲 修改 的 符号 
(图 1. 14) ,弹出 符号 对 话 框 后 即 可 修改 其 在 地 图 中 显示 
图 1. 11 基本 操作 工具 ”的 形状 和 颜色 (图 1.15). 








图 1.12 区 域 放 大 
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图 1. 14 点击 欲 修改 的 符号 
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Handicapped1 Handicapped 2 





图 1.15 选择 修改 后 的 符号 
第 五 步 ,属性 查询 : 
(1) спе165 为 噪声 区 ,有 一 所 学 校 看 上 去 好 像 在 该 区 域内 ,首先 点 击 放大 按 
钮 ,在 学 校 周围 拖 画 矩形 以 放大 该 区 域 ,发 现 学 校 位 于 该 噪声 区 内 (图 1.16), 


ges. 





图 1.16 ”放大 发 现 学 校 位 于 噪声 区 


(2) 首先 点 击 查询 属性 按钮 @ ,然后 通过 点 选 该 学 校 查询 其 属性 信息 
СРЯ 1. 17), AER Northwestern Ргер, 
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图 1. 17 查询 该 学 校 属性 信息 


(3) 添加 图 形 。 通 过 点 击 忽 按钮 回 到 上 一 视图 (图 1. 18); 再 点 击 A 按钮 之 
后 ,在 学 校 附近 点 击 鼠 标 左 键 ,并 修改 文字 框 中 内 容 为 学 校 名 Northwestern Prep, 







[Northwestern Prep | ' 






图 1.18 添加 学 校 名 


第 六 步 ,保存 地 图 : 
首先 点 击 Save As, 然 后 在 文件 名 对 话 框 中 键 人 Northwestern Prep_ex. mxd, 
点 击 Save 按钮 后 即 可 保存 该 地 图 (图 1. 19, PA 1. 20). 
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图 1.19 点 击 Save As 
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E 1.20 键 人 文件 名 并 保存 
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空间 数据 或 图 案 可 以 通过 意念 地 图 、 图 形 分 析 、 图 谱 分 析 , 得 到 新 的 信息 。 意 
念 地 图 (mental map) 通 过 空间 变换 ,将 真实 对 象 在 欧 几 里 得 空间 上 的 分 布 绘制 成 
人 们 意念 感知 的 地 图 。 图 形 分 析 (geometric analysis) 是 基于 空间 数据 的 几何 形状 
度量 或 几何 操作 进行 推断 的 方法 ,常用 的 有 缓冲 区 (buffer) 、 释 加 (overlay) ,临近 
度 (proximity) 等 操作 ,几何 重心 .几何 形状 等 度量 , 两 图 案 比 对 等 算法 。 图 谱 
(summary mapping) 分 析 试 图 通过 非 数据 分 析 的 办 法 ,通过 对 大 量 图 案 的 观察 JH 
纳 和 物理 机 制 推断 ,将 杂乱 的 信息 去 粗 取 精 、 去 伪 存 真 高 度 抽 象 和 浓缩 ,得 到 抽象 
和 简化 但 反映 地 学 过 程 本 质 的 地 图 ， j 


2.1 意念 地 图 


意念 地 图 或 认 知 地 图 是 外 界 环境 在 人 们 头脑 中 的 表征 ,往往 与 现实 基于 欧 几 
里 得 距离 绘制 的 地 图 不 一 致 ,意念 地 图 对 人 们 认识 真实 世界 ` 合 理 地 进行 区 域 规划 
具有 重要 意义 。 

假设 希望 在 地 图 上 表达 人 口 数据 的 某 些 属性 . 例如 ,希望 显示 选举 投票 .疾病 
发 生 ,汽车 ,电视 或 使 用 中 的 电话 数目 , 按 年 龄 .收入 或 其 他 统计 学 ,医学 或 人 口 学 
感 兴趣 的 变量 表示 人 口 数目 。 在 这 种 情形 下 典型 的 做 法 是 选择 感 兴趣 区 域 的 标准 
投影 ,用 颜色 代码 或 类 似 的 表达 将 这 些 数据 绘制 在 图 上 ， 但 是 这 样 的 地 图 可 能 会 
引起 高 度 误解 。 例如 ,绘制 疾病 发 生 ,将 不 可 避免 地 显示 出 城市 高 发 而 农村 低 发 ， 
仅仅 是 因为 更 多 的 人 住 在 城市 。 解决 这 一 问题 的 有 效 办 法 是 绘制 比率 测度 而 不 是 
原始 的 发 生 数 目 ;我 们 绘制 人 均 病 例 数 的 某 种 度量 ,用 足够 小 的 单元 得 到 好 的 空间 
分 辨 率 ,而 用 足够 大 的 单元 得 到 可 靠 的 采样 量 。 但 是 ,这 种 做 法 仍 存在 问题 , 因为 
它 放弃 了 所 有 关于 哪里 发 生 了 最 多 的 病例 的 信息 ，。 干 分 之 一 的 发 病 率 在 上 海 和 
西藏 的 意味 完全 不 同 。 

希望 数据 的 表达 既 可 以 反映 人 口 密度 变化 ,又 能 保留 每 个 区 域 有 多 少 病例 
的 信息 。 起 初 这 两 个 目标 似乎 是 不 可 协调 的 ,但 情况 并 非 如 此 。 在 一 般 的 面积 
保持 或 近似 面积 保持 的 投影 中 ,如 Mercator 或 Robinson 投影 ,它们 确实 是 不 可 
协调 的 。 但 是 ,如 果 将 地 图 上 的 面积 不 正比 于 地 表面 积 ,而 是 正比 于 人 口 数目 , 
问题 就 迎刃而解 。 画 在 这 种 投影 上 的 病例 数据 将 在 不 同 地 点 具有 同样 的 密度 和 
人 均 发 生 率 ,而 与 人 口 总 量 无 关 , 因 为 原始 发 生 率 和 面积 都 将 按 人 口 总 量 缩放 。 
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但 是 ,每 个 病例 或 一 组 病例 仍然 可 以 逐一 表达 ,因此 眼睛 可 以 清楚 地 看 到 哪里 病 
例 最 多 。 这 种 类 型 的 投影 是 值 -面积 (value-by-area) 地 图 .等 密度 地 图 或 比较 统 
计 地 图 (cartograms) 。Gastner 和 Newman (2004) 改 进 了 比较 统计 地 图 的 制作 方 
法 ,图 2. 1 是 用 这 种 新 方法 制作 的 GDP、 人 口 .土地 ,饮用 水 的 世界 意象 地 图 ， 





(a) 1500 年 的 GDP 
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(g) 2000 年 的 人 口 (h) 土地 (2004 年 的 不 卫生 饮水 
图 2.1 意念 世界 地 图 :GDP. 人 口 ,土地 ,饮用 水 (http://www. worldmapper. org/) 


从 图 2. 1(a) 一 (全 可 以 清楚 地 看 到 1500—2015 年 世界 各 国 GDP 的 变化 对 比 ; 
从 图 2. 1(g) 一 (iD 看 到 某 个 国家 的 人 口 .土地 ,不 卫生 饮水 占 世 界 份额 有 较 大 差异 ， 
提示 就 全 球 格局 而 言 ,该 国 的 突出 特点 和 问题 是 什么 ? 甚 各 方面 在 世界 的 地 位 
如 何 ? 

手绘 草图 是 挖掘 意念 地 图 的 另 一 种 主要 方法 。 薛 露 露 等 (2008) . 申 思 等 
(2008) 通 过 问卷 调查 ,获得 北京 居民 手绘 草图 样本 。 采 用 二 维 回归 与 标准 偏差 椭 
圆 方法 定量 测度 意念 地 图 整体 和 局 部 的 变形 (图 2. 2) ,得 出 北京 居民 的 认 知 地 图 
平均 变形 在 2 一 3km, 整 体 变形 以 二 环 为 界 ,内 小 外 大 ,并 呈 西 南 - 东 北 斜 向 拉 伸 、 东 
西 收缩 的 趋势 ,局 部 变形 北部 大 于 南部 ,个 体 的 变形 系数 与 对 地 标的 熟悉 程度 负 相 
关 , 男 性 小 于 女性 ,驾车 者 小 于 不 驾车 者 ,日 常 活动 范围 越 广 . 出 行 频率 越 高 .居住 
时 间 越 入, 距离 锚 点 越 近 的 被 试 认 知 变形 越 小 。 
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(a) 标准 地 图 (b) 意念 地 图 
图 2.2 北京 市 交通 意念 地 图 ( 薛 露 露 等 ,2008) 


2.2 图 形 分 析 


图 形 分 析 , 在 ArcGIS 中 称 作 空 间 分 析 , 是 GIS 的 主要 功能 之 一 ,包括 缓冲 区 、 
临近 度 、 释 加、 重心 等 分 析 。 


1. 缓冲 区 


以 事故 现场 为 中 心 ,以 20m 为 半径 画 圆 ,其 内 为 处 理事 故 的 警戒 区 ;以 河流 为 
基线 ,向 两 侧 各 50m 划 界 ,作为 景观 规划 带 。 总 之 ,以 点 或 线 为 基点 或 基线 ,以 某 
距离 为 半径 划 界 ,形成 缓冲 区 (buffer) 。 距 离 可 以 是 欧 几 里 得 距离 .时间 JERS, 

陇 海 兰 新 铁路 ,是 我 国 和 东亚 与 欧洲 货运 的 一 条 重要 通道 。 缓 冲 区 分 析 可 以 
用 于 分 析 、 模 拟 其 吸引 范围 ,为 区 域 规划 提供 科学 依据 。 将 全 国 1 : 400 万 铁路 、 公 
路 .航运 线路 编码 输入 形成 交通 GIS, 含 不 同 路 线 的 运输 成 本 ,并 定义 为 线段 距离 ， 
将 全 国 市 县 社会 经 济 统计 输入 GIS。 以 如 图 2. 3 所 示 的 主要 城市 为 中 心 , 在 交通 
GIS 上 同时 出 发 按 最 短路 径 前 进 至 与 来 自 不 同城 市 的 货 流 相交 停止 ,相交 点 连接 
形成 各 主要 城市 的 货 流 吸引 范围 (图 2. 3) 。 将 各 主要 城市 吸引 范围 图 与 全 国 市 县 
社会 经 济 统计 GIS 三 加 ,提取 各 城市 吸引 范围 内 的 人 口 和 社会 经 济 总 量 , 然 后 运 
用 经 济 - 交 通 流 模型 ,可 以 计算 各 主要 城市 的 客运 、 货 运 周转 量 ( 王 劲 峰 , 1993а). 
随 着 经 济 、 人 口 的 变化 ,可 以 预测 对 应 的 欧 亚 新 海 大 陆桥 沿线 各 主要 “港口 ”城市 的 
客运 ,货运 类 型 及 周转 量 的 变化 。 





2.3 欧 亚 新 海 大 陆桥 吸引 范围 模拟 示意 图 ( 王 劲 峰 ,1993a) 


2. Æ (overlay) 


太阳 能 热 发 电厂 的 选 址 需要 综合 考虑 几 个 因素 ( 王 劲 峰 等 ,2007) :足够 强 和 面 
积 大 的 太阳 能 法 向 直射 辐射 分 布 .土地 价格 ,水 、 距 居住 地 和 交通 线 远 近 等 。 将 全 
国 太阳 能 法 向 直射 辐射 图 ,土地 价格 图 、 水 资源 分 布 图 、 人 口 分 布 图 、 交 通 图 等 GIS 
图 层 统 一 投影 比例 尺 ,格式 等 ,进行 琶 加 ;根据 太阳 能 热 发 电 技术 经 济 模型 ,输入 
合 加 后 图 层 的 有 关 属 性 ,计算 不 同 厂址 的 净利 润 , 画 出 利 渔 等 值 线 图 , 据 此 估算 我 
国 太 阳 能 热 发 电 的 市 场 范围 和 利润 。 

地 震 、 洪 水 .干旱 按 强度 均 分 为 4 级 :严重 (S) ЖОН), PM), (L), y 
制图 ;统一 投影 、 比 例 尺 和 格式 ; 倒 加 ,获得 灾害 综合 风险 图 (Wang et al. ,1997) , 
如 图 2.4 所 示 。 进 一 步 计算 不 同 灾 害 之 间 的 空间 关联 性 。 表 2. 1 中 的 数字 表示 
中 国 洪水 ,干旱 灾害 不 同 级 在 空间 上 组 合 的 面积 比例 ,将 正 对 角 线 和 反对 角 线 的 
数值 分 别 相 加 .比较 ,可 以 判断 两 种 灾害 强度 的 空间 关联 性 。 主 对 角 线 越 大 、 反 
对 角 线 越 小 ,反映 两 种 灾害 强度 空间 关联 性 越 大 , 即 严重 的 洪水 区 域 也 是 严重 的 - 
干旱 区 域 , 中 等 和 轻微 的 洪水 区 域 也 是 中 等 和 轻微 的 干旱 区 域 , 表 2. 1 反映 了 这 
个 特点 ,洪水 和 干旱 空间 上 关联 (季节 上 分 离 ), 这 是 季风 区 特点 ;反之 , 主 对 角 线 
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越 小 ,反对 角 线 越 大 ,反映 两 种 灾害 强度 空间 分 布 越 趋 于 分 离 。 可 以 对 相似 表 进 
行 统计 显著 性 检验 。 
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SS 标志 区 域 存在 两 种 严重 (S) 的 灾害 





2.4 中 国 地 震 、 洪 水 .干旱 灾害 综合 区 划 (Wang et al, ,1997) 


表 2.1 中 国 洪水 .干旱 灾害 图 4X4 和 2X2 481038 


干旱 Ам. 
PRS н 中 M 轻 L SHH M+L 
严重 S 0. 00 0. 00 0. 00 0.01 S+H 0. 02 0. 25 
洪水 кн 0.01 0.00 0.04 0.18 M+L 0. 12 0. 60 
ФМ 003 0. 00 0. 06 0. 15 
BL 0. 06 0. 02 0. 04 0. 34 
面积 比 面积 比 
主 对 角 线 :0. 40 主 对 角 线 :0. 62 
反对 角 线 :0. 11 反对 角 线 :0. 37 
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3， 空 间 分 布 统计 


空间 分 布 统计 (statistics of spatial distribution) 是 研究 空间 分 布 的 整体 性 或 
全 局 性 特征 的 统计 方法 ,包括 研究 对 象 在 二 维 空间 上 的 重心 .范围 .密集 度 .方位 和 
形状 ( 赵 作 权 ,2009)。 而 通常 所 说 的 空间 统计 (spatial statistics) HY WEIL P3 A LAS 
间 分 布 的 空间 差异 性 ,依赖 性 和 空间 回归 。 以 下 以 空间 重心 分 析 为 例 加 以 介绍 。 

常用 欧 几 里 得 距离 和 距 平 重心 。 设 有 权重 q 的 离散 点 群 (x,y,,i=1,2,…， 
NN) 的 距 平 重心 为 (zxo "s 则 距 中 心 的 平均 距离 为 


S= > Vai — zo)? + Су, — у„)* = = Man (2.1) 
式 中 , (xo,y,) 为 使 Sorin 的 点 位 ;ri 为 第 i 点 距 重心 点 的 欧 氏 距离 。 可 以 通过 
TE FOR fit 


" un 

N dri SRL 

o a 

C+D iel ` fi i=1 T; 
AC Meer, н = (2. 2) 

> : 

“Oo (k) 

i=! ri r; 


ERAS r —a |+ |y#t5— y^ | НАВЕ e 为 止 。 

20 世纪 70 年 代 美国 曾 就 19 世纪 中 叶 至 20 世纪 70 年 代 的 全 美人 口 重心 转 
移 做 过 计算 (U. S. Census Bureau, 2001) ,明显 地 标示 出 总 体 人 口 自 东 向 西 的 迁移 
趋势 及 强度 (km//a) ,这 与 美国 地 域 开 发 自 东 向 西 展开 的 基本 格局 相符 合 。 王 劲 峰 
(1993b) 用 重心 分 析 法 发 现 如 图 2. 5 所 示 的 迁移 趋势 。 产 业 产 值 重 心 转移 是 产业 
内 部 产品 的 组 织 结构 .产业 之 间 的 投入 产 出 关系 、 资 源 环境 约束 和 国家 经 济 政策 、 
宏观 布局 战略 作用 在 空间 上 的 综合 反映 。 例如 ,就 农业 重心 的 位 置 而 言 ,我 国 主要 
产量 带 位 于 东部 地 区 :三江 平原. 山东 省 .河北 省 .河南 省 和 江苏 省 。1984 年 以 后 ， 


邮电 产值 、 社 会 商品 零售 总 额 大 口 重心 向 北 迁 移 轻工业 、 公 路 货物 运输 周转 共 
重心 向 西北 迁移 (1984-1987 年 ) (1984-1987 年 ) 重心 向 东北 迁移 (1984~1987 年 ) 


工业 产值 、 铁 路 货运 周转 量 
重心 基本 不 动 (1984~1987 年 ) 


£N 


del, Bea ERE K 大 口 重 心 向 南 迁 移 重工 业 、 固 定 资产 投资 
重心 向 西南 迁移 (1984~1987 年 ) (1963 年 , 1981 年 ， 1984 年 ) 重心 向 东南 迁移 {1984-1987 年 ) 


图 2. 5 中 国 社会 经 济 重心 空间 迁移 (1984 一 1987 年 ) 
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农产品 价格 放 开国 家 鼓励 农 副产品 发 展 , 华 南 农 副产品 水 热 条 件 好 ,沿海 加 大 开 
放 , 出 口 创汇 为 目的 的 外 向 型 经 济 刺激 了 该 地 区 农 副产品 发 展 ,使 得 1984 一 1987 
年 农业 产值 重心 由 华东 地 区 向 西南 方向 高 强度 移动 。1984 一 1987 年 东南 沿海 对 
外 开放 ,吸引 了 大 量 固定 资产 投资 和 重工 业 发 展 ,使 其 重心 向 东南 方向 迁移 。 由 于 
产业 之 间 的 互相 关联 ,一 个 统计 量 的 空间 移动 ,经 过 一 个 时 间 延 迟 后 必 将 带动 另 一 
个 或 几 个 统计 量 的 空间 移动 ( 赵 永 和 王 劲 峰 ,2008)。 例 如 ,固定 资产 投资 与 GDP 
空间 重心 移动 方向 应 当 是 一 致 的 ,但 存在 3 一 5 年 的 时 间 差 ;又 如 ,如 果 纺 织 业 产值 
重心 与 棉花 产量 重心 移动 的 方向 相 背 ,必然 导致 运输 距离 和 运输 量 的 增加 ,增加 纺 
织 业 成 本 。 人 口 的 空间 迁移 起 因 于 经 济 和 社会 利益 ,受到 并 对 生态 环境 造成 压力 
和 破坏 ,其 空间 走向 值得 监测 和 预测 ,并 对 此 进行 调控 ,实现 人 地 和 谐 。 


2.3 图 谱 分 析 


“ 谱 "通常 指 规律 .表面 过 程 所 遵循 的 内 在 顺序 .千差万别 中 的 不 变 主线 ,如 化 
学 元 素 周期 表 、 基 因 图 谱 等 “地 学 图 谱 ” 由 陈述 彭 (2001) 提 出 ,试图 用 东方 人 擅长 
的 整体 图 形 思维 分 析 方式 从 复杂 海量 的 空间 信息 中 提取 地 学 现象 的 规律 和 本 质 ， 
将 空间 信息 用 图 形 思维 的 办 法 去 除 噪声 ,将 反映 地 物 本 质 规律 的 信息 提炼 出 来 , 实 
现 空间 信息 在 空间 上 的 高 度 浓缩 和 抽象 表达 ,形成 概念 ,如 京剧 脸谱 。 这 有 别 于 西 
方 还 原 论 和 定量 化 的 研究 哲学 ,犹如 中 医 和 西医 的 关系 ,各 有 所 长 。 陈 述 彭 先 生 总 
结 了 几 个 地 球 信息 图 谱 成 功 的 案例 : 魏 格 纳 的 大 陆 漂移 学 说 ,. 柯 本 的 气候 区 划 、 杜 
能 的 地 理 区 位 论 .李四光 的 大 地 构造 , 竺 可 桢 的 自然 区 划 . 欧 亚 大 陆桥 旋律 曲线 ( 陈 
述 彭 ,2001) 等 。 图 谱 相 对 于 地 图 ,就 像 牛顿 定律 相对 于 结构 力学 ,后 者 纷繁 复杂 ， 
但 归根 结 底 都 是 由 简单 而 本 质 的 牛顿 定理 所 控制 的 。 

图 谱 的 用 途 可 归纳 为 揭示 规律 .形成 概念 ,制作 图 例 ;图 谱 的 物理 载体 是 地 图 ; 
表达 为 反映 地 学 规律 的 几何 图 案 ; 制 作 方法 目前 主要 基于 制作 者 丰富 的 地 学 知识 、 
形象 和 抽象 思维 能 力 以 及 图 形 概括 表达 能 力 (陈述 彭 ,2001); 正 在 探索 用 数字 技术 
归纳 总 结 制 作 典 型 图 案 图 例 以 及 统计 规律 的 方法 ( 叶 庆 华 等 ,2004) , 


1. 大 地 构造 图 谱 


李四光 根据 野外 地 学 填 图 和 室内 地 质 力学 模拟 实验 ,总 结 归纳 出 中 国 大 地 构 
造 的 一 字形 、 山 字形 、 歹 字形 儿 种 图 谱 ( 图 2. 6) ,这 些 图 谱 是 多 旋回 构造 运动 的 综 
合 效 应 ,控制 了 油气 资源 形成 的 空间 格局 。 


2. 交通 旋律 图 谱 
东西 方 交往 始 于 汉 唐 中 世纪 的 丝绸 之 路 。 由 于 战乱 , 丝 路 几 次 中 断 , 东 西方 探 
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图 2.6 中 国 大 地 构造 图 谱 ( 据 李四光 , 见 陈述 彭 ,2001) 


险 家 于 是 改 弦 更 张 ,绕道 北冰洋 .东南亚 航线 迁 回 数 千里 ,继而 修建 西伯 利 亚 铁 路 ， 
近年 修 通 第 二 欧 亚 大 陆桥 ,取道 我 国 新 疆 和 中 亚 各 国 , 东 达 连云港 和 上 海 , 西 至 阿 
姆 斯 特 丹 ,路 线 越 来 越 直 , 里 程 越 来 越 短 ,就 像 一 条 波动 的 历史 琴 弦 ,经 过 长 期 的 震 
ib ,左右 摆动 之 后 ,终于 平静 、 准 直 了 下 来 (陈述 彭 ,2001)( 图 2.7). 





IE HK 





(b) WORSEN CI EE IE S IE LEER 
图 2.7 欧 亚 大 陆桥 旋律 图 谱 ( 陈 述 彭 ,2001) 
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3. 城市 体系 图 谱 


叶 大 年 和 郝 伟 (2001) 以 矿物 晶体 学 的 知识 背景 将 我 国 城市 分 布 空间 格局 归 
纳 为 几 种 典型 对 称 图 谱 , 反 映 了 自然 环境 约束 与 社会 竞争 机 制造 就 城镇 体系 分 
布 的 机 理 。 图 2. 8 展示 湖南 、 江 西 两 省 城镇 体系 相对 于 沿 省 界 从 北部 的 武汉 向 
南 经 幕 阜 山 至 罗 霄 山 的 对 称 轴 , 从 城镇 分 布 .等 级 .交通 线 .直至 社会 经 济 规模 的 
空间 分 布 等 呈现 高 度 对 称 性 。 两 省 地 质地 貌 上 的 对 称 性 固然 提供 了 先天 的 物质 
基础 ,在 此 基础 上 发 展 起 来 的 社会 经 济 空间 分 布 的 对 称 性 则 是 后 天 人 类 攀比 和 
竞争 本 能 所 造就 的 。 按 照 此 对 称 性 ,观察 对 称 一 方 的 发 展 ,可 以 预见 对 称 男 一 方 
的 发 展 。 





图 2.8 潮 南 和 江西 的 轴 对 称 图 谱 ( 叶 大 年 和 部 伟 ,2001) 


4 海岸 带 生 态 演化 图 谱 


淤积 海岸 带 生 态 系 统 受 地 下 水 位 和 盐 度 强烈 影响 ,而 地 下 水 位 和 盐 度 随 距 海 
远近 呈现 规律 的 条 带 状 分 布 (图 2. 9)。 例 如 ,黄河 三 角 洲 ( 叶 庆 华 等 ,2004) 和 江苏 
海岸 带 ,其 天 然 植物 .养殖 业 .种植 业 的 空间 格局 随 着 淤积 和 围 海 造田 向 海洋 的 延 
伸 , 呈 现 有 规律 的 演 替 。 自 海岸 线 向 陆地 方向 , 呈 带 状 依次 分 布 。 
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图 2.9 洪 积 海岸 带 与 三 角 洲 生态 演 替 图 谱 
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20 世纪 后 半 叶 在 西方 统计 界 兴起 的 探索 性 数据 分 析 技 术 , 基 于 让 数据 说 话 的 
理念 (Hoaglin et al., 1998; Hampson et al., 1999) , 即 尽 可 能 不 预先 为 数据 结构 设 
置 模式 ,通过 显示 关键 性 数据 和 使 用 简单 的 指标 来 得 出 模式 ,利用 归纳 的 方式 提出 
假设 ,避免 野 值 (outlier) 或 非典 型 观测 值 的 误导 。 从 20 世纪 90 年 代 开始 ,探索 性 
数据 分 析 技 术 逐 渐 被 地 学 工作 者 认可 并 引入 地 球 信息 科学 (Haining,1990) 。 

探索 性 空间 分 析 一 般 作为 空间 分 析 的 先导 ,进行 数据 清洗 ,筛选 变量 、 提 示 
模型 选择 ,检验 假设 等 。 实 现 手段 是 ,利用 一 系列 软件 ,描述 和 显示 空间 分 布 , 识 
别 非典 型 空间 位 置 (空间 表面 ) ,发 现 空间 关联 模式 ,提出 不 同 的 空间 结构 及 空间 
不 稳定 性 的 其 他 模式 (Painho,1994) 。 空 间 数据 挖掘 是 探索 性 空间 分 析 的 重要 
手段 , 它 试图 从 空间 数据 中 抽取 隐 含 的 空间 模式 和 特征 。 目 前 常用 的 空间 数据 

挖掘 技术 有 空间 数据 数理 统计 、 聚 类 分 析 和 规则 发 现 等 。 | 

| 可 视 化 是 数据 探索 性 分 析 的 首要 步骤 ,包括 经 典 统计 软件 如 SPSS, SAS, 
Matlab 中 的 散 点 图 、 直 方 图 、 叶 茎 图 等 ;GIS 软件 方便 了 空间 数据 的 可 视 化 和 操 
作 , 达 到 熟悉 数据 、 清 洗 数据 ,提示 变量 和 关系 的 目的 。 读 者 可 以 方便 地 使 用 这 
些 软件 进行 空间 数据 可 视 化 和 初步 的 探索 性 分 析 , 直 接 阅 读 和 操作 这 些 软 件 将 
比 读书 更 加 快捷 和 容易 掌握 这 些 技术 ,所 以 本 书 不 予 专门 介绍 。 聚 类 和 规则 发 
现 将 在 本 书 其 他 章节 予以 介绍 。 本 章 将 重点 介绍 经 典 统计 学 运用 于 空间 数据 探 
索 的 几 种 方法 :相关 性 分 析 、 回 归 分 析 、 主 成 分 分 析 以 及 地 理 探测 器 。 


3.1 线性 相关 性 分 析 


1. 原理 


在 分 析 空 间 两 个 事物 之 间 的 关系 时 ,分 析 人 员 常 常 要 了 解 两 者 间 的 数量 关系 
是 否 密 切 。 说 明 两 个 样本 量 为 n 的 变量 (zx,y) 间 关系 密切 程度 的 统计 指标 叫 相 关 
系数 (coefficient of correlation) ,用 7 表示。 计算 线性 相关 系数 的 基本 公式 是 


(х—)(у—ў) 
NE с.с... (3812 


JD) a-z У) (у ӯ)? 


RPT y 分别 为 数据 变量 x 和 y 的 均值 ,r 的 值 介 于 一 1 到 1 ZB]. F r0. 
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示 两 个 事物 统计 正 线性 相关 , 即 “ 此 高 彼 也 高 ,此 低 彼 也 低 ”; 若 一 0, 表 示 两 个 事 
物 统计 负 线性 相关 , 即 * 此 高 彼 却 低 ,此 低 彼 却 高 "; 若 一 0, 则 表示 两 个 事物 之 间 
没有 统计 线性 相关 性 。 当 两 个 数据 变量 不 处 于 正 态 分 布 时 ,还 可 以 用 等 级 相关 系 
数 (Spearman 相关 系数 ) 或 Kendall 相关 系数 等 非 参 数 方法 来 衡量 两 者 之 间 的 相 
关 性 。 

线性 相关 系数 的 统计 意义 检验 可 以 用 c 检验 法 。 
n—2 
1—2 
AVR. 1, >to. (п — 2) „ WRA Р<0. 05, 说 明 线性 相关 系数 有 统计 意义 ;如 果 1,< 
1, d Q1— 2) , 则 表明 P>0.05, 说 明 线性 相关 系数 无 统计 意义 。 其 中 为 样本 量 ， 
"为 用 户 给 定 的 置信 水 平 ,toos(n 一 2) 可 查 + 统计 表 获 得 。 


2. 案例 


(1) 案例 所 用 数据 是 山西 省 和 顺 县 1998 ~ 2003 年 村 级 出 生 缺 陷 率 数据 
(rate9803) 及 其 一 些 相 关 环 境 要 素数 据 :村 到 道路 距离 (roaddistance) ,村 到 河流 距 
离 (riverdistance)、 煤矿 影响 (neibmines) .断层 缓冲 区 (faultagebuffer)、 坡 度 
(gradient) 。 

(2) 点 击 SPSS 的 Analysis->Correlate->Bivariate 按键 (图 3. 1) ,选择 双 变 量 
相关 分 析 功 能 进行 相关 性 分 析 。 在 双 变 量 相 关 分 析 对 话 框 里 ,选择 的 出 生 缺 陷 率 
变量 和 出 生 缺 陷 相 关 环境 因素 变量 名 均 显 示 在 左边 的 窗口 中 ,依次 选择 变量 并 点 





(3. 2) 


t, =+ 











图 3.1 相关 分 析 (Bivariate) 对 话 框 
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击 向 右 的 箭头 按钮 ,变量 便 进 入 变量 (V) 窗 口 。 由 于 数据 不 符合 正 态 分 布 ,所 以 案 
例 选择 了 Kendall 相关 系数 和 Spearman 系数 来 分 析出 生 缺 陷 与 相关 要 素 之 间 的 
相关 性 。 

(3) 按 “确定 ”按钮 ,得 到 图 3. 2, 可 见 煤矿 影响 与 出 生 缺 陷 是 显著 正 相 关 。 


Correlations 


——— | elevation | nebmises | 


Correlation Coefficient 
Sig.(2-tailed) 

N š 

Correlation Coefficient 
Sig.(2-tailed) 

N 

Correlation Coefficient 
Sig.(2-tailed) 

N 


Correlation Coefficient 
Sig.(2-tailed) 
N 


Correlation Coefficient 
Sig.(2-tailed) 

N 

Correlation Coefficient 
Sig.(2-tailed) 

N 


elevation Correlation Coefficient 
Sig.(2-tailed) 
N 


Correlation Coefficient 
Sig.(2-tailed) 
N 





**Correlation is significant at the 0.01 level(2-tailed). 


图 3.2 相关 分 析 结 果 


3.2 回归 分 析 


1. 原理 


回归 分 析 任 务 是 要 把 客观 事物 或 现象 间 的 数量 关系 用 函数 形式 表达 出 来 ,其 
核心 是 建立 回归 模型 。 回 归 模 型 的 具体 形式 千差万别 ， 本 章 描述 的 是 最 为 常用 的 
直线 回归 模型 。 

在 进行 直线 回归 分 析 时 ,通常 是 先 将 原始 数据 对 (z,y) 在 直角 坐标 系 上 绘制 
散 点 图 ,然后 通过 数学 方法 求 出 能 代表 各 数据 点 对 分 布 趋势 的 回归 直线 及 相应 的 
直线 方程 。 描 述 数 据 变量 (z,y) 回 归 关 系 的 直线 方程 为 
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y=a+bz (3. 3) 


式 中 ,a,b 为 直线 方程 中 两 个 常数 系数 ,通过 实测 数据 点 对 ,用 最 小 二 乘法 拟 合 求 
得 。 类 似 地 ,解释 变量 可 以 是 多 个 。b 值 大 小 及 其 显著 性 标示 了 z 对 y 的 解释 能 
力 , 也 就 是 工 对 y 影响 的 弹性 系数 。 


2. RHI 


(1) 本 案例 采用 数据 与 上 节 相 关 性 分 析 所 用 数据 相同 , 见 З. 1 节 20D, 

(2) 点 击 SPSS 的 Analysis>Regression—> Linear 按键 ,选择 Linear Regression 
功能 进行 回归 分 析 。 在 线性 回归 (Linear Regression) 对话 框 里 ,选择 的 出 生 缺 陷 
数据 及 相关 环境 因素 变量 名 均 显 示 在 左边 的 窗口 中 (图 3. 3) ,选择 出 生 缺 陷 率 
到 因 变 量 , 依 次 选择 环境 因素 变量 到 自 变 量 窗 口 。“ 方 法 ”一 栏 选 择 “Enter”。 


WLS NAR (Н); 





iTS) | е (L) | 保存 向 | ERO) | 
图 3.3 线性 回归 (Linear Regression) НЕ 


(3) 按 “ 确 定 ” 按 钮 ,得 到 表 3.1 和 表 3. 2, 可 见 出 生 缺 陷 和 所 选 因素 间 无 显著 
线性 回归 关系 。 
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R31 被 剔除 变量 清单 
Variables Entered" / Removed" 





至 公路 距离 
至 煤矿 距离 
至 污染 源 距离 







а. 所 有 需要 进 人 的 变量 ;b. 被 解释 变量 :rate9803。 


表 3.2 最 终 回 归 方 程 的 相关 统计 量 参数 列表 
ANOVA! 





15770. 301 3942. 575 








669985. 8 2087. 183 






685756. 1 


а. 解释 变量 : (常数 ) ,坡度 ,至 公路 距离 ,至 煤矿 距离 ,至 污染 源 距离 ;b， 被 解释 变量 ;rate9803， 


3.3 主 成 分 分 析 


1. RE 


主 成 分 分 析 (principal components analysis) 是 利用 降 维 的 思想 ,在 损失 很 少 
信息 的 前 提 下 把 多 个 变量 (zi nn ,zw) 转 化 成 几 个 综合 变量 ( 主 成 分 )(2 ZO. 
各 个 主 成 分 之 间 互 不 相关 : 

ZI 一 CUZI 十 clzzz 十 … 十 cimzm 

^ Tenn een oo a eam 

Z,= Cont X1 T Cua + сь 
式 中 ,z 为 原始 变量 X 的 标准 化 变量 ( 即 每 个 原始 变量 减 去 样本 均 数 再 除 以 样本 
标准 差 ) cji j=l, m 为 线性 组 合 系数 ,被 称 为 因子 负荷 量 ,其 大 小 及 前 面 的 
正 负 号 直接 反映 了 主 成 分 与 相应 变量 之 间 关 系 的 密切 程度 和 方向 。 主 成 分 所 反映 
的 是 所 有 样本 的 总 信息 ,信息 量 由 Z, BZ, 逐渐 减少 。 第 i 个 主 成 分 的 贡献 率 为 
Ai/mX 1002654, 为 与 第 i 个 主 成 分 对 应 的 特征 值 ,可 以 通过 特征 方程 |R 一 A1| =0 进 
行 求解 ,其 中 为 标准 化 变量 的 协 方差 矩阵 ( 即 相关 和 矩阵 ) , I 为 与 相关 矩阵 同 阶 的 
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单位 矩阵 。 由 此 可 得 ,前 个 主 成 分 的 累计 贡献 率 是 (>,/m ) X100%。 在 应 


用 时 ,一 般 取 累 计 贡 献 率 为 70% 一 85% 或 以 上 所 对 应 的 前 PP 个 主 成 分 即 可 。 有 
时 , (Zl ,Zi) 就 能 解释 (zx,… ,zx,) 方 差 的 70%~80%, 

在 研究 复杂 问题 时 ,使 用 主 成 分 分 析 方 法 ,往往 只 需 考 虑 少数 几 个 主 成 分 就 
行 ,并 且 不 会 损失 太 多 信息 。 这 样 做 更 容易 抓 住 主要 矛盾 ,揭示 事物 内 部 变量 之 间 
的 规律 ,同时 简化 问题 ,提高 分 析 效 率 。 


2. 案例 


(1) 本 案例 采用 的 数据 与 3. 1 节 的 相关 性 分 析 所 用 数据 相同 。 

(2) 点 击 SPSS 的 Analysis Data Reduction — Factor 按键 ,选择 Factor 
Analysis 功 能 进行 主 成 分 分 析 。 在 因子 分 析 ( Factor Analysis) 对 话 框 里 ,选择 的 出 
生 缺 陷 相 关 环 境 因素 变量 名 均 显 示 在 左边 的 窗口 中 (图 3. 4) ,依次 选择 变量 并 点 
向 右 的 箭头 按钮 ,变量 便 进入 变量 (V) 窗 口 。 








3. | me | we. | wes | ismo | 
GL E A M 


图 3.4 因子 分 析 对 话 框 


(3) 进行 描述 ,抽取 旋转 ,得 分 等 选项 参数 设置 后 , 按 “ 确 定 ” 按 钮 , 便 得 到 以 
下 结果 。Communality 表 ( 表 3. 3) 给 出 主 成 分 分 析 从 每 个 原始 变量 中 提取 的 信息 
fit. “Extraction "字段 数据 表明 了 每 个 原始 变量 的 贡献 率 。 表 3. 4 显示 了 各 个 主 
成 分 解释 原始 变量 总 方差 的 情况 ,SPSS 默认 保留 特征 根 大 于 1 的 主 成 分 ,这 里 显 
示 保留 了 3 个 主 成 分 ,这 3 个 主 成 分 集中 了 原始 变量 61. 457% 的 信息 量 。 表 3.5 
显示 的 是 最 大 贡献 的 前 3 个 主 成 分 是 如 何 由 原始 变量 组 成 的 ,由 此 发 现 ,高 程 . 距 
公路 远近 、 坡 度 和 距 煤 矿 远近 对 和 顺 县 出 生 缺 陷 统 计 贡 献 率 较 大 ， 
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35 3.3 Communality 3 






坡度 
RR 
至 煤矿 距离 

至 污染 源 距离 


. 676 
. 681 







34 方差 解释 


1. 868 1. 868 











提取 平方 负载 之 和 


方差 比重 /% 





26. 692 
44, 734 
61. 457 


提取 方法 : 主 成 分 分 析 。 


#3.5 成 分 矩阵 











河流 缓冲 带 

公路 缓冲 带 

断裂 缓冲 带 
坡度 
HE 

至 煤矿 距离 

至 污染 源 距 离 

提取 方法 : 主 成 分 分 析 。 
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3.4 层次 分 析 
1. 原理 


层次 分 析 法 (analytic hierarchy process, AHP) 是 美国 运筹 学 家 、 匹 效 保 大 学 
教授 T. L. Saaty 于 1977 年 提出 的 。 它 是 一 种 实用 的 多 准则 决策 方法 ,该 方法 以 
其 定性 与 定量 相 结 合 处 理 各 种 决策 因素 的 特点 ,以 及 系统 灵活、 简洁 的 优点 ,迅速 
地 在 社会 .经 济 等 领域 中 得 到 广泛 的 应 用 。 

层次 分 析 法 基本 原理 就 是 把 所 要 研究 的 复杂 问题 看 作 一 个 大 系统 ,通过 对 系 
统 的 多 个 因素 的 分 析 , 划 分 出 各 因素 间 相 互联 系 的 有 序 层次 ;再 请 专家 对 每 一 层次 
的 各 因素 进行 较 客 观 的 判断 后 ,相应 给 出 相对 重要 性 的 定量 表示 ;进而 建立 数学 模 
型 ,计算 出 每 一 层次 全 部 因素 的 相对 重要 性 的 权 值 ,加 以 排序 ;最 后 根据 排序 结果 
规划 决策 和 选择 解决 问题 的 措施 (图 3. 5). 


目标 层 JAFE ЛЕЙ ht 
准则 层 景色 н 居住 饮食 旅途 
GRE 目的 地 | 目的 地 2 目的 地 3 


图 3.5 旅游 地 选择 AHP 结构 模型 


通常 情况 下 ,层次 可 分 为 三 类 ， 

(1) 最 高 层 。 只 有 一 个 元 素 , 是 问题 的 预定 目标 或 理想 结果 ,因此 也 称 目标 层 。 

(2) 中 间 层 。 这 一 层次 包括 要 实现 目标 所 涉及 的 中 间 环 节 中 需要 考虑 的 准 
则 。 该 层 可 由 若干 层次 组 成 ,因而 有 准则 和 子 准则 之 分 ,这 一 层 也 称 准则 层 。 

(3) 最 底层 。 为 实现 目标 可 选 的 各 种 措施 决策 方案 等 ,也 称 措 施 层 或 方案 层 。 

实施 步骤 是 :建立 递 阶层 次 结构 模型 -构造 各 层次 中 的 判断 矩阵 ,并 进行 一 致 
性 检验 由 判断 矩阵 计算 被 比较 元 素 对 于 该 准则 相对 权重 -> 计算 各 层 元 素 对 系统 
目标 的 合成 权重 ,并 进行 排序 。 

SK HEB n SAF X= (z, ,…,zx,) 对 某 因素 Z 的 影响 大 小 ,Saaty 等 提出 可 以 
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采取 对 因子 进行 两 两 比较 建立 成 对 比较 矩阵 的 办 法 , 即 每 次 取 两 个 因子 z, 和 zi， 
VA aj ROR x: Mx; 对 Z 的 影响 大 小 之 比 , 全 部 比较 结果 用 矩阵 A= (а, axe BAR, 
称 4 为 Z 一 X 之 间 的 成 对 比较 判断 矩阵 (简称 判断 矩阵 ) 。 容 易 看 出 , 若 r, Ax, 
对 2 的 影响 之 比 为 a; , 则 х, 和 zi 对 2 的 影响 之 比 应 为 aj; 二 1/ai , 易 见 a; —1, 
i—]1,*,n, 

关于 如 何 确 定 a; 的 值 , Saaty 等 建议 引用 数字 1 一 9 及 其 倒数 作为 标 度 。 
K 3. 6 列 出 了 1 一 9 标 度 的 含义 。 


33.6 标 度 含义 

标 шж = < 

1 表示 两 个 因素 相 比 ,具有 相同 重要 性 

3 表示 两 个 因素 相 比 ,前 者 比 后 者 稿 重要 

5 表示 两 个 因素 相 比 ,前 者 比 后 者 明显 重要 

? 表示 两 个 因素 相 比 ,前 者 比 后 者 强烈 重要 

9 表示 两 个 因素 相 比 ,前 者 比 后 者 极端 重要 
2,4,6,8 表示 上 述 相 邻 判断 的 中 间 值 

倒数 SAR i 与 因素 j 的 重要 性 之 比 为 ai ,那么 因素 j 与 因素 i 重要 性 之 比 为 aj; —1/a; 


层次 单 排序 是 根据 判断 矩阵 计算 本 层次 中 与 上 一 层次 某 元 素 有 联系 的 元 素 的 
重要 次 序 的 权重 值 ,从 数学 角度 分 析 是 指 计 算 判 断 矩 阵 的 最 大 特征 根 和 相应 的 特 
征 向 量 。 用 方 根 法 计算 权重 值 W, ,计算 过 程 

(1) 按 和 矩阵 的 行 , 求 元 素 的 几何 均值 


W, = | (3. 5) 


| Ilay 
(2) 规范 化 а 
—— (3.6) 
>; W, 
层次 分 析 法 要 求 判断 矩阵 具有 大 体 的 一 致 性 ,使 计算 的 结果 基本 上 合理 
2. 案例 


本 实验 采用 层次 分 析 法 对 和 顺 县 凤 台 、 榆 树 湾 、 泊 里 3 个 村 的 人 口 进行 预测 ， 
采用 该 3 个 村 的 河流 缓冲 区 .道路 缓冲 区 、 分 水 线 编号 .土地 覆盖 ,高度 .医生 数量 、 
净 收 入 、 蔬 菜 数 量 . 水 果 数 量 ( riverbuffer, roadbuffer, watershed-id, landcover, 
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elevation(m) , doctor, .net-income vegetable, fruit) 及 总 人 口 数 (total popu) 数 据 。 
CD 软件 yaahp 的 下 载 地 址 为 http://www. jeffzhang. cn/download/ yaahp- 
Setup_0. 4. 1. exe。 使 用 yaahp 软件 时 ,必须 首先 安装 Microsoft . NET Frame- 
work 2.0, 下 载 地 址 为 http://www. onlinedown. net/soft/38669. htm, 
(2) 点 击 图 标 野 ,进入 yaahp 系统 (图 3. 6). 





图 3.6 уааһр 主 界面 


(3) 构造 层次 模型 中 的 目标 层 。 首 先 点 击 左 侧目 标 层 按钮 ,然后 再 点 击 右 侧 
面板 ,将 目标 层 放 置 合 适 位 置 , 并 修改 其 名 称 (图 3. 7, FA 3.8). 





图 3.7 点 击 目标 层 按钮 
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о 
the forecast of 
E population comparison * 


"a 





图 3.8 放置 目标 层 并 修改 名 称 
C4) 按照 同样 方法 构造 层次 模型 中 的 准则 层 ( 图 3. 9). 


AMP Model Tudrement Matrix Result 


the forecast of 
© population comparison © 


n . a 








图 3.9 点 击 准则 层 按 钮 


D 影响 人 口 数量 的 因素 可 分 为 两 大 类 :社会 经 济 和 自然 两 大 基本 因素 ,首先 
构造 该 层 (图 3. 10 一 图 3. 12), 
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ПИР UUyr—= Вола De ТЕЕ О US KE tina aad 


the forecast of 
population comparison 


social factors A natural factors 


 Jwáeesant Watrix | Мэй! 


LESSE population comparison 
- A 


— 
p social factors & o natural factors 
e " в ° a 





图 3.11 圈 选 基本 因素 并 选择 连接 按钮 
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= m Td Weirix | Result 
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the forecart of 
population comparison 


г 
$ 
social fectere 





图 3.12 建立 基本 元 素 和 目标 层 之 间 的 联系 


(D 对 于 社会 经 济 因 素 和 自然 因素 ,又 可 分 别 将 其 细 分 为 医生 数量 、 净 收入 、 dh 
菜 数 量 , 水 果 数 量 和 河流 缓冲 区 .道路 缓冲 区 、 分 水 线 编号 、 ИЙЕ, Pa BF , ЖЕШ |Ë] 
样 方法 建立 其 间 关 系 ,完成 准则 层 的 构造 (图 3. 13) 。 











ö— — PPAR 


图 3.13 完成 准则 层 构 造 
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(5) 构造 层次 模型 中 的 方案 层 。 选 取 凤 台 、 榆 树 湾 、 泊 里 3 个 村 作为 预测 目标 
(图 3.14、 图 3.15)。 





二 — — —— — ee aa e 


the forecast of | 
population comparison | 
SAEPIUS | 





social factors 
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[152 M $T 
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т 
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— — 
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social factors neteral баспага 
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pet шс» vegetable fruit бастат Yiverbuffes tevfr Ces veversbe4 Ib Ima eon | 





图 3.15 构建 目标 屋 
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(6) 构造 各 层次 的 判断 矩阵 。 首 先 点 击 进入 判断 矩阵 页 面 (图 3.16). 


ux VworkVEXERCI 1\AHP\THEFOR™ 1. AHP + 





(ME Rodel | Judgement Matrix | Result | тайыш 
w m 

š | 
Ж 
m 


population comparison | 


1 
| š : š 7 the forecast of 
| 


i 


| 
| fruit doctor riverbuffer 


Zio bu 
e © Output ч 


social factors 


net-incone ` vegetable 





图 3.16 点 击 进入 判断 矩阵 页 面 
(7) 进入 判断 矩阵 页 面 后 首先 更 改 标 度 方法 (图 3.17). 





| AHP Model | Judgement Matrix Result | — 4 
Of Matrix Consistence of matrix: Incomplete judgeme 





Option Items 


Fengtai ; ү | 
'Yushuwan | | 
Boli | | 
| | Respect to g 
| Р a) | 
| the : 
| Compare the 1 
Hi ber ar chy | y 


SS. v EP Z... GY E БҮГҮ 


图 3.17 更 改 标 度 
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(8) 建立 人 口 比较 预测 判断 矩阵 。 在 保证 一 致 性 的 前 提 下 ,对 影响 因素 相对 
关系 进行 打分 (图 3.18). 


ЖЭ Wedel Joie бахт hasa _ e 
Seale OF Setrix Censistence of cotria Consi stent! @ (шю) ажей h i 
— 4 
3 * w... Pomiri a 于 
Üption im 
Tetw 
эшче 


















图 3.18 构造 人 口 比较 矩阵 


(9) 按照 同样 方法 分 别 构造 社会 因素 、 自 然 因素 ,医生 数量 、 净 收入 .蔬菜 数 
BL. KRE ,河流 缓冲 区 ,道路 缓冲 区 、 分 水 线 编号 .土地 覆盖 .高度 判断 矩阵 ， 具 
体 相对 关系 打分 可 参考 输出 部 分 各 因素 相对 关系 打分 及 权重 表 。 

(10) 当 所 有 和 矩阵 满足 一 致 性 条 件 时 ,点 击 结果 输出 界面 (图 3. 19、 图 3. 20). 


rrr 
= social factors 


* B net-incone 
* ш vegetable 
由 EM doctor 
* E fruit 
局 EB natural factors 
СЕ riverbuffer 
* WE roadbuffer 
* MED watershed ID 
由 Bl landcover 
+ ШЙ elevation 








”所 有 矩阵 
必须 满足 要 求 





图 3.19 所 有 矩阵 满足 一 致 性 条 件 
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AHP Model | Judgement Matrix | Result 


Scale Of Matrix onsistence of matrix: Consi 

1"9 prem — 
atrix Description 
Option Items 

Fengtai 

Yushuwan 

Boli 


[83.20 点击 进 入 结果 输出 界面 
QD 查看 结果 输出 并 点 击 查 看 详细 记录 (图 3. 21.4 3.22). 


Detail Information 


Expert 


Select Export Type: PIF File w [zwi Medel | Export — 


Seale Туре: 179 


Final Result 

les мы Teich y 
Fengtai 0. 3595 
Yuxykewan 0 2287 
Beli 0 4118 


__1. the forecast of population comparison Consistency xcale: 0. 0000: Teightiness to Goal. 1.0000 


the forecast socia hatur Ni 
social factors 1 0000 з 0000 0 тую 
natural factors 0 3333 1 0006 0 2500 


2. social factors Consistency scale 0.0220; Weightiness te Coal :û. 7500 


social factors  net-i veget doctor fruit LE 

net^7isecona 1 0000 3 0000 1.0000 3 0000 0 3736 
vegetable 0 3333 1 0000 0 3333 2 0000 D 1481 
doctor 1 0000 3 0000 1.0000 3 0000 0 3735 
fruit 0. 3333 0 5000 0.3333 1.0000 0. 1047 


3. materal facters — Comzintenew seele:0. 0254: Weirhtiness to Соа1:0 2500 
< 


图 3.21 输出 详细 记录 
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3.22 层次 结构 模型 


3.5 地 理 探测 器 
1. 原理 ° 


风险 在 哪里 ? 什么 因素 造成 了 风险 ? 危险 因素 之 间 的 相对 重要 性 如 何 ?危险 
因素 是 独立 起 作用 还 是 具有 交互 作用 ? 地 理 探测 器 可 以 回答 这 四 个 问题 。 

假设 在 研究 区 A 中 ,疾病 是 以 B 中 的 方 格 为 单位 统计 的 ,各 方 格 的 发 病 率 记 
作 Ее ғ, 是 两 个 疑似 影响 疾病 的 因素 ,ci „с: „©з Al dı „da di 是 C 因素 
Al D 因素 各 自 的 空间 类 别 分 区 (图 3. 23) ,如 岩 性 和 营养 水 平等 。 





图 3.23 研究 区 的 空间 类 别 分 区 
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地 理 探测 器 首先 将 疾病 分 布 图 层 与 疑似 因素 图 层 如 C Е 25 lB] Ê Jill 
(图 3. 24) ,以 此 来 计算 疾病 影响 要 素 空间 类 别 分 区 内 疾病 流行 率 的 均值 和 方差 ， 
类 别 ,cs 和 es 中 疾病 流行 率 的 平均 值 和 方差 分 别 用 y, y. +y. A Var, , Маг, 
和 Var, 表示 。 


1 





РЫ 3.24 又 加 后 的 图 层 及 相应 的 参数 


接着 对 要 素 的 不 同 空间 类 别 分 区 之 间 进 行 疾病 流行 率 均值 差异 的 显著 性 检 
验 。 若 某 种 要 素 的 类 别 分 区 之 间 的 疾病 流行 率 均值 差异 显著 , 且 每 个 类 别 分 区 内 - 
部 疾病 流行 率 的 变异 性 非常 小 ,极端 情况 下 等 于 零 , 这 就 意味 着 这 种 要 素 类 别 分 区 
可 以 部 分 或 全 部 解释 疾病 流行 率 空间 变异 。 各 要 素 对 疾病 流行 率 的 解释 力 ( 以 C 
因素 为 例 ) 


(п. Маг, tn., Маг, Hne Var ) 2 
p. =1——— sn) (3.7) 
nVar ip 


式 中 , D 为 影响 因子 ; 有 H 为 健康 指标 ; Poa XY D 对 HH 的 解释 力 ; 
(nc Маг, Fn, Маг, +n. Мат, ) 7 
e — AHEMOHEEN 占 研究 区 疾病 流行 率 总 体 离 
散 方差 的 比例 。 当 按照 某 一 种 因素 的 类 别 分 区 ,疾病 流行 率 在 各 个 不 同类 别 分 区 
内 的 变异 性 等 于 零 时 , 则 称 这 种 分 区 为 完美 分 区 ,此 时 Pr =1. 

地 理 探测 器 由 四 个 探测 器 组 成 :风险 探测 器 .因子 探测 器 .生态 探测 器 和 交互 
作用 探测 器 。 风 险 探测 器 通过 比较 不 同类 别 分 区 之 间 健 康 风险 指标 的 平均 值 以 搜 
索 健康 风险 的 区 域 ,均值 显著 大 的 类 别 分 区 ,健康 风险 就 大 。 因 子 探测 器 调查 危险 
因素 ,检验 某 种 地 理 因素 是 否 是 形成 健康 风险 空间 分 布 格局 的 原因 ,具体 做 法 是 比 
较 健康 风险 指标 在 不 同类 别 分 区 上 的 总 方差 与 健康 指标 在 整个 研究 区 上 的 总 方差 ， 
这 个 比率 越 小 , 则 该 种 因素 对 健康 的 影响 越 大 。 生 态 探测 器 比较 各 个 要 素 间 健 康 风 
险 指标 总 方差 的 差异 ,来 探究 不 同 的 地 理 要 素 在 影响 疾病 的 空间 分 布 方面 的 作用 是 
否 有 显著 的 差异 。 交 互 作用 探测 器 可 以 识别 危险 因子 A 和 已 之 间 的 交互 作用 ， 


(1) 协同 作用 ,如 果 Po. (AN B> Pp, a (AB P; CB; 

(2) 双 协 同 作 用 ,如 果 Рн (AN BO Pp. (AF Po. (B); 

(3) 非 线性 协同 作用 ,如 果 Pp. (ANB) > Pp. CA) + Pp (B); 
(4) 拷 抗 作用 ,如 果 Pr. (AN B) Pp CA) + Pp. (B); 

(5) SRS PEA. Ж Pou (AN BO Pp a CA Po. (B); 

(6) 非 线 性 持 抗 作用 ,如 果 Pp (AN BO — Pp (ADAM Pp.n (B); 
C) 相互 独立 ,如 果 Pp. (ANB) = Pp. CA) Pp. OD), 


2. ЖА 


(1) 案例 所 采用 的 是 山西 省 和 顺 县 1999 一 2005 年 每 个 村 的 出 生 缺 陷 数 据 以 
及 同期 相关 的 社会 经 济 数据 (人 均 粮 食 产 量 等 级 分 布 图 、 人 均 蔬 菜 产量 等 级 分 布 
图 ,人均 GDP 等 级 分 布 图 .拥有 医生 数 等 级 分 布 图 .化 肥 施 用 量 等 级 分 布 图 ) ,另外 
还 使 用 了 自然 要 素数 据 ( 汇 水 流域 分 区 图 .岩层 分 布 图 .土壤 类 型 分 布 图 ,断层 分 布 
图 ,河流 缓冲 区 图 ,道路 缓冲 区 图 ,高程 图 .坡度 图 )。 案 例 的 目 标 是 评估 潜在 环境 
危险 因素 对 和 顺 县 出 生 缺 陷 的 作用 。 

(2) 由 于 出 生 缺 陷 是 小 概率 事件 ,为 了 减少 发 生 率 的 估计 偏差 ,使 用 了 Bayes- 
ian 调整 方法 (Haining,2003) 对 案例 所 采用 的 出 生 缺 陷 数 据 进 行 调 整 。 接 着 将 社 
会 经 济 和 自然 环境 图 层 数据 与 村 的 图 层 释 加 相 切 ， 用 面 域 加 权 的 方法 (Wang et 
al. ,2009a) 获 得 每 个 登 加 相 切 后 的 小 图 斑 上 的 相应 要 素数 据 值 。 

(3) 利用 SPSS 中 的 Analysis- Description Statistics Descriptive 功能 得 到 
各 个 要 素 不 同类 别 分 区 上 出 生 缺 陷 率 的 均值 和 标准 差 。 接 着 用 Analysis-» Com- 
pare Means—IndPDendent-Samples T Test 功能 检验 某 种 要 素 不 同类 别 分 区 间 出 
生 缺 陷 率 均值 差异 。 值 得 提醒 的 是 在 使 用 此 功能 之 前 ,首先 要 对 均值 数据 进行 正 
态 分 布 检验 ,通过 检验 后 才能 用 此 功能 进行 下 一 步 分 析 , 最 后 用 Analysis >General 
Linear Models-*Univariate 功能 比较 各 个 要 素 间 总 方差 的 差异 。 

(4) 汇总 分 析 结果 。 风 险 探测 器 回答 的 是 健康 风险 在 什么 地 理 位 置 的 问题 。 
Ж 3. 7 按照 出 生 缺 陷 发 病 率 的 大 小 排列 了 不 同 的 汇 水 流域 ,同时 比较 了 不 同 汇 水 
流域 之 间 出 生 缺 陷 发 病 率 的 差异 。 对 于 其 他 的 地 理 环境 因素 对 出 生 缺 陷 发 病 率 的 
影响 大 小 ,也 可 做 出 类 似 分 析 。 


表 3.7 和 顺 县 9 个 汇 水 流域 的 出 生 缺陷 发 病 率 差异 性 的 统计 显著 性 


统计 显著 差异 2 4 7 9 3 8 1 5 6 
2 
4 N 
7 Y N 
9 


Y N N 
——... ا ا‎ 
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aX 
统计 显著 差异 
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2 
Y 
Y 
Y 
Y 


G л — — 00 
< < < < |= 
ко < <] 
< < < < <|: 
< < < 
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注 :阿拉 伯 数 字 表 示 汇 水 流域 的 代码 ,Y 表示 两 个 汇 水 流域 之 间 的 出 生 缺 陷 发 生 率 在 9554 APRE E 
异 显著 ,N 表示 不 显著 。 

危险 因子 探测 器 和 生态 探测 器 揭示 了 不 同 地 理 图 层 代表 的 环境 因素 对 出 生 缺 
陷 发 生 率 影响 的 相对 大 小 及 其 解释 力 : 

汇 水 流域 (47%) 二 岩层 (39%) > +H (24%) > (19%) 二 河流 缓冲 区 
(13%) 二 高 程 (10%) 二 坡度 ( 9%) 二 道路 缓冲 区 (7%), 

根据 上 面 的 结果 ,可 以 得 出 以 下 结论 :解释 力 排 在 最 后 的 两 个 因素 (坡度 和 道 
路 绥 冲 区 ) 之 间 的 差异 是 不 显著 的 , 排 在 前 4 位 的 4 个 因素 之 间 也 没有 显著 差异 ， 
出 生 缺 陷 发 生 率 在 汇 水 流域 内 部 的 差异 是 最 小 的 ,而 且 在 汇 水 流域 的 上 游 . 中 游 和 
下 游 区 神经 管 畸 形 发 生 率 也 是 不 显著 的 ,这 说 明 在 汇 水 流域 内 部 神经 管 畸形 发 生 
率 的 分 布 是 相对 均一 的 。 相 对 于 其 他 的 自然 因素 ,水 作为 介质 可 以 使 得 各 种 化 学 
物质 和 生物 因素 更 均匀 分 布 ,而 且 相 对 封闭 的 汇 水 流域 地 貌 单元 在 自然 环境 、 人 文 
因素 ,以 及 自然 和 人 文 相 互 作用 方面 ,具有 相对 一 致 的 特点 。 此 外 ,出 生 缺 陷 发 生 
率 在 不 同 的 岩层 类 型 .土壤 类 型 及 断层 绥 冲 区 内 的 差异 也 很 小 ,这 说 明 在 研究 区 
域 ,这 些 原生 的 自然 环境 在 很 大 程度 上 影响 着 出 生 缺 陷 的 发 生 。 出 生 缺 陷 发 生 率 
在 河流 缓冲 区 ,不 同 坡度 高 程 等 级 .河流 道路 缓冲 区 内 的 差异 相对 较 大 ,表明 这 些 
因素 的 空间 分 布 对 出 生 缺 陷 的 影响 相对 小 。 使 用 风险 探测 器 发 现 ,石炭 系 和 长 城 
系 岩 层 出 露 的 地 区 ,出 生 缺 陷 发 生 率 显著 高 于 其 他 地 区 ,而 第 四 系 和 三 县 系 岩层 出 
露 的 地 区 ,出 生 缺 陷 发 生 率 显 著 低 于 其 他 地 区 。 

危险 因子 探测 器 还 探测 了 人 工 环境 和 社会 经 济 因素 对 出 生 缺 陷 发 生 率 的 影 
啊 , 人 为 因素 对 出 生 缺 陷 的 影响 如 下 : 

人 均 粮 食 产量 (17. 5%%) 盖 人 均 蔬 菜 产量 (11. 6%) > AU GDP (11.3%) > 
生 数 (1.3%) 二 化 肥 使 用 量 (0.9%). 

这 组 结果 表明 营养 水 平 比 化 学 污染 与 出 生 缺 陷 发 生 的 关系 更 加 密切 。 此 外 ， 
结合 前 面 的 分 析 , 还 可 看 出 ,在 研究 区 ,人 为 因素 相对 于 自然 因素 来 说 ,与 出 生 缺 陷 
的 发 生 率 的 关系 要 弱 得 多 。 

交互 作用 探测 器 用 来 检验 两 种 出 生 缺 陷 的 危险 因素 是 独立 起 作用 的 还 是 相互 
作用 的 ,结果 如 表 3. 8 所 示 。 地 质 断 层 和 坡度 两 种 因素 在 影响 出 生 缺 陷 发 生 率 方 
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面具 有 协同 作用 (断层 门 坡度 ==0. 8670. 28 二 断层 (0. 19) 十 断层 (0. 09)) 。 断 层 
产生 的 过 程 中 ,岩层 的 连续 性 遭受 到 破坏 , 沿 断 裂 面 发 生 明 显 的 相对 移动 ,一 些 地 
壳 深 层 物质 如 放射 性 氨 .重金 属 或 硫化 氧 等 气体 有 可 能 会 释放 出 来 ,而 坡度 也 可 以 
理解 为 重力 梯度 ,可 以 成 为 这 些 有 害 物 质 扩 散 的 一 种 外 在 动力 。 岩 层 与 汇 水 流域 
在 影响 出 生 缺 陷 发 生 率 方面 表现 出 持 抗 作用 (岩层 门 汇 水 流域 ==0. 45 一 0. 86 王 岩 
JZ (0. 39) 十 汇 水 流域 (0. 47) ) 。 


表 3.8 两 个 自然 因素 交互 作用 影响 出 生 缺 陷 发 生 率 
С=АПВ:1—9{,/9, A+B: У) „ав (1—of,/of,) 比较 解释 ， 








土壤 门 坡度 =0.10 一 0.33 = +O. 24) 十 坡度 (0.09) С<А 坡度 十 壤 
岩层 门 坡度 =0.39<0.48 = JE (0. 39) 十 坡度 (0.09) C=AandC<A+B WIESNER 
岩层 门 断层 0. 45 <0. 58 = # (0. 39) 十 断层 (0.19)。”C>A,B;C 二 A 十 B TBE 
岩层 扑 汇 水 流域 =0.45 «0.86 = 岩层 (0. 39) 十 汇 水 流域 (0. 47) C<B 岩层 3 汇 水 流域 
岩层 门 土壤 =0.51<0.63= 岩层 (0. 39) 十 土壤 (0. 24) C>A,B;C< AFB ETE LK 
土壤 门 商 程 0. 56 20. 34 = 3 (O. 24) 十 高 程 (0. 10) C>A+B 土壤 了 高 程 
断层 门 高 程 =0.66>0.29= 断层 (0.19) 十 高 程 (0. 10) C>A+B 断层 了 高 程 
断层 门 汇 水 流域 =0.71 >0.66 = 断层 (0.19) 十 汇 水 流域 (0. 47) C>A+B 斯 层 了 汇 水 流域 


断层 门 土壤 0. 78 0.43 = 断层 (0. 19) 十 土壤 (0. 24) C>A+B 断层 了 土壤 
岩层 门 商 程 0. 84 20. 49 = ”岩层 (0. 39) - TE RICO. 10) C>A+B 岩层 了 高 程 
新 层 门 坡度 =0. 86 —0.28 = 断层 (0. 19) 十 坡度 (0. 09) C>A+B Wr bk ir 





注 ;:A YB RRA HK B A FB 表示 A MRB A TT B RRA MB MER. ALB 表示 A MB 相互 
RH. ASB KRA WB 在 导致 疾病 不 是 独立 的 ;ADB 表示 A AB 导致 疾病 方面 是 独立 的 ;A 证 B 表 示 和 A 
fn BARR EM LA В KRA MB 非 线性 减弱 ;下 同 ，。 


此 外 ,自然 因素 和 人 文 因素 对 出 生 缺 陷 发 生 率 的 交互 作用 按照 解释 力 (Pp.n) 
排序 如 下 : 

岩层 门 水 果 产 量 (51. 6%) 守 岩层 门 化 肥 施用 量 (45. 5%) 二 岩层 由 水 果 产 量 
(40. 3%) > ЖЕ + AS GDP (39.3%); 土 壤 门 水 果 (28.5%) > + П жж 
(28. 1%) >EN AE AE DG Hi (24. 924) > HEHE N AS GDP(24. 7%) 二 土壤 门 医 
生 数 量 (24. 6%%); 断 层 门 水 果 产 量 (29.3%%) 二 断层 门 水 果 产 量 (28. 2%) > BE N 
医生 数量 (24. 2%%) 二 断层 所 化 肥 施 用 量 (24. 1%) 二 断层 门人 均 GDP(23. 3%), 

自然 因素 和 人 文 因素 在 影响 出 生 缺 陷 发 生 的 交互 作用 如 表 3. 9 所 示 。 可 以 看 
出 ,两 种 因素 释 加 之 后 的 解释 力 Po. (Di N D, ) 与 两 种 因素 单独 的 解释 力 之 和 
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Pp.n(CD) 十 Pop.a(D:) 相 差 并 不 大 ,这 意味 着 人 文 因 素 对 于 自然 因素 影响 出 生 缺 陷 
发 生 率 的 空间 分 布 特征 方面 ,作用 很 小 。 
R39 自然 因素 和 人 文 因素 在 影响 神经 管 畸形 发 生 的 交互 作用 








c-AnB,1- 1 AE oe Las (:-2=) 结果 解释 
x. = р 
岩层 门人 均 GDP =0.39 < 0.50 = ابا‎ keys #/2U AH) GDP 
岩层 门 蔬菜 产量 =040 < 0.51 = en лн цажти 
岩层 门 化 肥 用 最 =0.45 > 0.40 = ооо C-A-B 岩层 了 化 肥 用 量 
岩层 站 水 果 产 量 =0.52 < 0.56 = Poon sep 岩层 什 水 果 产量 


3. 小 结 


空间 聚集 探测 检验 (Moran, 1950; Getis and Ord, 1992; Anselin, 1995; Kull- 
dorf ,1997) 等 用 于 探测 属性 y 的 空间 分 布 聚集 性 ; 地 理 探 测 器 (Wang et al. , 
2009a) 用 于 探测 属性 y 及 其 解释 因子 zx。 表 3.10 对 此 进行 了 总 结 。 


表 3.10 空间 聚集 检测 与 地 理 探测 器 比较 


空间 聚集 检验 地 理 探测 器 
(spatial cluster test) (geographical detectors) 


Moran’s I (Moran, 1950) 


模型 Getis G (Getis and Ord, 1992) Geographical detector 
Lisa (Anselin, 1995) (Wang et al. ,2009a) 
Spatial Scan ( Kulldorff, 1997) 
变量 y y~r 


实际 观测 样本 值 和 假设 空间 随机 样本 值 两 种 病例 空间 分 异 与 因子 空间 分 异 的 两 空间 分 布 
原理 | 输入 ,统计 指标 的 差别 显著 性 检验 。 差别 大 到 的 一 致 性 检验 
通过 显著 性 检验 , 则 实际 观测 存在 空间 聚集 


———————  —————— 灶 


第 4 章 空间 相关 性 和 蜡 质 性 


地 理学 的 一 个 基本 概念 是 ,临近 的 地 理 实体 往往 比 相距 遥远 的 实体 具有 更 多 
的 相似 性 。 这 种 现象 往往 用 “ 托 布 勒 地 理学 第 一 定律 "来 表示 。 同 时 ,万 物 世 界 空 
间 分 布 的 不 均匀 性 造就 了 不 同 的 国家 ,不 同 的 气候 带 、 不 同 的 资源 京 赋 , 称 为 地 理 
空间 异 质 性 。 

空间 依赖 性 是 地 理 空间 内 一 个 属性 的 协同 变化 :特征 在 近地点 似乎 是 相关 的 ， 
无 论 是 正 还 是 负 的 ,如 图 4. 1(a) 和 图 4.1(b) 所 示 ; 空 间 异 质 性 是 地 理 空间 内 一 个 
属性 的 聚集 性 在 更 大 的 空间 范围 内 呈现 的 空间 分 布 差异 性 ,如 图 4. 1(d) 所 示 。 空 
间 正 相关 或 空间 聚集 和 空间 分 异 是 同一 个 空间 现象 在 两 个 不 同 空间 尺度 上 的 表 
现 , 具 有 不 同 的 用 途 。 


E uL 


— ei атт — — ancor de 


图 4.1 空间 自 相 关 和 空间 分 异 


空间 相关 性 意味 着 样本 数据 是 非 独立 的 ,因此 ,不 应 当 直 接 使 用 经 典 统计 学 来 
分 析 空 间 数据 ,否则 结果 会 是 有 偏 或 非 最 优 的 。 空 间 异 质 性 意味 着 样本 数据 非 同 
质 和 非 等 概率 , 需 使 用 分 层 统 计 的 办 法 (stratified statistics). 


4.1 空间 相关 性 
1. 现象 


长 江 三 角 洲 ,珠江 三 角 洲 等 地 区 经 济 高 度 发 达 , 企 业 表现 出 高 度 的 空间 聚集 性 
和 相关 性 ;冬季 , 乌 禽 在 繁殖 环境 的 喜好 方面 具有 明显 的 空间 自 相 关 性 :疾病 具有 
RAE ,扩散 ,流行 的 特点 ,比如 Wang 等 (2006) 对 2003 4E SARS 在 北京 传播 的 所 有 
11 108 位 密切 接触 者 的 空间 分 布 进行 分 析 , 发 现在 小 的 空间 尺度 上 呈现 空间 随机 
分 布 ,在 大 的 空间 尺度 (格局 ) 上 呈现 聚集 状 并 与 北京 市 的 主要 环线 干道 有 较 高 的 
视觉 空间 相关 性 (图 4. 2) 。 
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第 一 阶段 : "种子 ”从 外 飞 入 
第 二 阶段 : 在 城市 内 随机 传播 
第 三 阶段 : 在 空间 聚集 


图 4.2 空间 公 集 和 自 相 关 :2003 年 北京 SARS 空间 传播 (Wang et al ,2006) 


空间 自 相 关 是 指 变量 通过 空间 邻近 与 自己 相关 ， 

(1) 在 空间 分 布 的 一 个 变量 ,如 果 呈 现 出 任何 系统 的 模式 , 它 被 认为 是 空间 自 
相关 的 ; 

(2) 如 果 附 近 或 周边 地 区 更 一 样 ,这 是 正 的 空间 自 相 关 : 相 似 的 值 趋向 于 彼此 
三 邻 ; 局 域 地 理 差 异 变 得 抑制 ;区 域 变异 的 统计 度量 趋 于 显著 ; 

(3) 负 的 自 相关 描述 周边 地 区 呈现 不 同 的 模式 :不 相似 的 值 趋 于 互相 毗邻 ;局 
域 地 理 差异 变 得 显著 ;区 域 变 异 的 统计 度量 趋 于 不 显著 ; 

(4) 自由 格局 呈现 出 无 空间 相关 ， 


2. 负面 后 果 


大 多 数 统计 学 是 基于 样本 观测 值 互相 独立 假设 的 。 假 如 样本 是 从 附近 获取 
的 ,可 能 存在 着 空间 自 相关 ,会 违反 这 一 假设 。 非 空间 独立 性 导致 许多 经 典 统计 和 
推断 直接 运用 于 空间 数据 是 不 恰当 的 ;同时 ,空间 自 相关 也 造成 了 信息 宛 祭 ,经 典 
抽样 效率 降低 。 

相关 系数 或 普通 最 小 二 乘 回归 (OLS) 估 计 假 设 观测 是 随机 选择 的 。 但 是 , 候 
如 观测 是 空间 聚集 的 ,那么 由 相关 系数 或 OLS 得 到 的 估计 将 是 有 偏 和 过 度 精确 
的 。 他 们 是 有 偏 的 ,因为 该 地 区 的 高 浓度 事件 对 模型 估计 将 产生 更 大 的 影响 ,他 们 
对 精度 估计 过 高 ,因为 事件 往往 很 集中 ,造成 实际 独立 样本 数 比 预期 的 少 ,造成 参 
数 佑 计 不 稳定 .显著 性 检验 不 可 靠 。 


空间 过 程 — v oW m eH 








3. 正面 后 果 


空间 回归 模型 (本 书 第 7 章 , 第 9 章 ) 抓 住 空间 自 相 关 , 没 有 受到 空间 相关 性 的 
损害 。 这 也 是 适当 的 :将 空间 依赖 看 作为 一 种 信息 来 源 ,而 不 是 加 以 纠正 。 


4. 成 因 


空间 相关 性 至 少 有 5 种 可 能 的 成 因 。 一 种 可 能 性 是 空间 因果 关系 。 例 如 , 物 
质 犯罪 率 在 一 个 城市 邻近 地 区 往往 是 由 于 类 似 的 因素 ,如 社会 经 济 地 位 ， 为 维持 治 
安 或 环境 建设 创造 了 类 似 犯 罪 的 机 会 ,这 些 特征 吸引 或 排斥 犯罪 。 另 一 种 可 能 性 
是 空间 自 相关 :在 某 一 地 点 的 一 些 东 西 直 接 影响 附近 地 点 的 特点 。 例 如 ,个 人 犯罪 
的 破 窗 理论 表明 ,由 于 秩序 的 明显 崩溃 ,贫困 、 缺 乏 维修 和 小 额 物质 犯罪 往往 滋生 
在 临近 位 置 更 多 的 这 类 犯罪 。 第 三 种 可 能 是 空间 相互 作用 :空间 相互 作用 是 指 一 
个 地 方 发 生 的 现象 会 影响 其 他 与 之 相关 的 位 置 的 结果 ,这 种 结果 一 般 与 距离 方向 
有 关 ; 人 员 .货物 或 信息 的 流动 创造 了 位 置 之 间 明显 的 关系 ;“ 旅 行 犯罪 ”理论 认为 
犯罪 活动 的 发 生 是 由 于 在 其 日 常 活动 中 犯罪 居所 、 聚 会 或 其 他 关键 地 点 的 可 接近 
性 。 第 四 ,扩散 现象 。 扩 散 现象 一 般 都 是 从 扩散 源 开始 向 周转 逐渐 扩 散 , 离 扩散 源 
较 近 的 地 方 受 到 的 影响 比较 大 ,如 传染 病 和 污染 物 的 空间 扩散 。 第 五 ,空间 依赖 性 
可 来 源 于 各 种 测量 误差 ,包括 空间 过 程 与 政 区 边界 的 不 一 致 .空间 单元 的 整合 以 及 
空间 外 延 和 空间 溢出 的 存在 等 。 此 外 ,研究 对 象 的 空间 组 织 与 空间 结构 也 会 产生 
一 系列 空间 互动 和 空间 依赖 的 复杂 分 布 (Krugman,1991) 。 


5. 度量 


空间 自 相 关 度量 指标 的 目标 在 于 在 地 图 上 度量 空间 自 相 关 的 强度 ,用 此 指标 
检验 空间 分 布 的 独立 或 随机 性 假设 :通过 比较 指标 的 经 验 数 值 和 随机 分 布 假设 条 
件 下 的 理论 数值 ,用 理论 标准 偏差 ZCD) 值 度量 。 常 用 的 空间 自 相关 的 度量 指标 有 
Moran’s I(Moran, 1950) ( — 1,1) ;Geary's C(Geary,1954)(0,2);Ripley’s K(Ri- 
pley, 1977) ; Join Count Analysis( Krishna-lyer, 1950; Haggett, 1976) ; G-Statistics 
(Getis and Ord, 1992) #1 Local G-Statistics( Ord and Getis, 1995) ; Semi-variogram 
(Matheron,1963) 。 空 间 聚 集 性 往往 对 应 空间 正 相 关 , 因 此 ,空间 聚集 性 扫描 探测 
的 Kulldorff(1997) 的 Spatial Scan 也 可 用 于 空间 正 相 关 的 检验 。 

在 有 空间 自 相 关 的 情况 下 ,发展 出 一 系列 模型 如 空间 流 模型 .空间 分 布 模型 、 
空间 结构 模型 .空间 过 程 模型 ,它们 都 直接 或 间接 地 包含 了 空间 依赖 性 考量 。 

以 上 各 种 指标 和 模型 需要 用 到 空间 邻近 的 度量 ,可 以 是 一 般 空间 权重 和 矩阵 、 空 
间 位 沾 算 符 或 两 点 之 间 的 距离 。 如 表 4. 1 中 地 块 之 间 的 邻近 关系 。 
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384.1 GIS 属性 表 


空间 自 相 关 


(spatial autocorrelation) 





HI X: correlation) 


以 上 内 容 分 别 适合 于 一 种 或 几 种 数据 类 型 和 不 同类 型 研究 问题 ,在 本 书 随后 
的 章节 里 会 先后 给 予 详 细 介绍 。 


4.2 空间 异 质 性 
1. 现象 


城市 不 同 功能 区 域 在 人 口 和 收入 水 平方 面 的 差异 ,发 达 与 欠 发 达 地 区 在 科技 
发 展 水 平 上 的 差异 等 ;从 青藏 高 原 景 观 到 澳大利亚 沙漠 和 上 海 或 北京 城市 的 复杂 
性 ;又 如 ,植物 或 动物 多 物种 (生物 ) (图 4. 3) ,地形 构造 (地 质 ) 或 环境 特征 (如 降 
水 ,温度 、 风 ) 空 间 分 布 不 均匀 ;有 时 这 类 非 均 质 现象 反映 在 模型 误差 中 ,如 变量 缺 
失 或 功能 性 的 建 模 失 误 ,从 而 导致 模型 输出 的 空间 非 均 质 性 。 





(a) 山东 耕地 面积 成 数 (b) 实 验 区 耕地 面积 成 数 


图 4.3 空间 异 质 性 :2000 年 山东 耕地 面积 
成 数 分 布 (Wang et al. ,2009a) 
地 球 表面 呈现 出 难以 置信 的 多 样 性 ,几乎 无 处 可 合理 地 描述 为 空间 均匀 分 布 。 
这 些 概 念 被 称 为 空间 异 质 性 ,一 个 接近 的 用 词 是 “分 片 分 布 ”。 


‚60, = | 4t 4E or vr MAL 


2. 负面 后 果 


几乎 每 一 个 地 点 都 会 表现 出 相对 于 其 他 位 置 某 种 程度 的 独特 性 ,这 影响 了 空 
间 依 赖 关系 以 及 空间 过 程 的 统一 表达 。 空 间 异 质 性 意味 着 为 全 系统 所 估计 的 总 体 
参数 并 不 能 恰当 地 描述 任何 一 个 给 定点 的 过 程 。 


3. 正面 后 果 


各 种 类 型 生境 如 不 同 的 地 瑶 .土壤 类 型 和 气候 为 大 量 物种 提供 避 所 。 

空间 异 质 性 被 认识 和 充分 利用 ,可 以 提高 空间 抽样 调查 效率 , 即 用 较 少 的 样本 
获得 精度 较 高 的 总 体 估 计 , 用 较 少 的 样本 获得 统计 单元 较 可 靠 的 届 性 值 (Wang et 
al. ,2009c); 有 助 于 探索 地 学 过 程 的 成 因 和 影响 因素 (Wang et al. ,2009a)。 


4. 成 因 


宇宙 从 一 个 质量 无 穷 大 、 体 积 无 穷 小 的 质点 ,发 生 大 爆炸 ,逐步 演化 为 开放 的 
复杂 巨 系统 ,从 同 质 状态 不 断 分 异 。 地 球 系统 演化 不 断 分 异 , 呈 现 出 愈加 纷繁 复杂 
的 自然 景观 ;人 类 演化 变异 ,从 人 类 个 体 到 社会 经 济 , 分 异 和 分 工 剑 加 精细 ,在 空间 
上 表现 出 空间 异 质 性 。 


5. 度量 


离散 方差 反映 总 体 各 单元 与 平均 状况 的 差异 程度 。 当 样本 单元 小 时 ,离散 方 
差 大 反映 图 案 的 空间 随机 性 大 ; 当 样 本 单元 尺度 大 时 ,离散 方差 大 反映 空间 异 质 性 
强 。 空 间 异 质 性 的 男 外 一 种 表示 方式 是 区 划 , 使 区 内 离散 方差 最 小 ,区 际 离散 方差 
最 大 ,可 用 分 类 算法 ,在 遥感 软件 中 常见 。 
空间 异 质 性 影响 到 几乎 任何 类 型 的 空间 分 析 。 许 多 技术 ,如 三 明治 空间 抽样 
模型 (Wang et al. , 2002b)、 空 间 抽 样 最 优 决策 (Trinity) 理论 (Wang et al. , 
2009c) .局 域 Getis G 统计 (Ord and Getis,1995) , Fj Moran’ s I 统 计 (Anselin， 
1995) , Jt FE Jr 4 [8] IH CFotheringham et al. , 2000) 均 是 针对 异 质 性 的 空间 分 析 
яі. 
空间 非 均 质 性 的 各 种 影响 可 以 通过 时 空 数 据 的 回归 方程 来 表达 (应 龙 根 和 宁 
. HÊK , 2005) 
y= f CE Bt) (4.1) 
式 中 ,i 为 待 观测 的 空间 单元 ,t 为 时 间 点 , f, NERS РА СН О 3А DLE Hi у, 
与 一 组 自 变量 r, ,参数 项 B, 和 误差 项 e,, 的 关系 。 当 然 , 由 于 参数 项 多 于 变量 的 原 
因 , 这 一 方程 是 无 法 求解 的 。 但 通过 限制 参数 项 来 简化 模型 ,可 以 使 上 述 方程 在 实 
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际 工作 中 进行 经 验 的 估计 和 假设 检验 。 
4.3 校正 和 运用 
1) 对 于 空间 相关 性 
RE: 


(1) 数据 变换 ,如 抽 稀 可 以 减少 样 点 之 间 的 空间 依赖 性 ,从 而 可 以 使 用 经 典 的 
数据 统计 方法 ;其 代价 是 离散 方差 增加 .置信 区 间 增 加 ; 

(2) 空间 回归 模型 (Anselin,1988) ,将 空间 自 相 关 用 模型 结构 进行 吸纳 ,使 残 
差 趋向 白 噪 声 ,从 而 使 模型 及 参数 的 各 统计 指标 回归 正常 。 

2) 对 于 空间 异 质 性 

校正 Н 

(1) 分 区 地 学 过 程 和 参数 在 小 区 域内 较 均 匀 ,从 而 使 模型 参数 区 域 化 ,反映 区 
域 特点 ; 

(2) 局 域 模型 构建 ,如 局 域 Getis G(Getis,1995) »>GWR(Fotheringham et al. , 
2000), 

相对 于 空间 相关 性 ,空间 异 质 性 研究 较 少 。 

关于 空间 相关 性 和 空间 异 质 性 的 运用 见 前 两 节 的 正面 后 果 。 

在 分 析 空 间 数据 时 ,必须 对 其 空间 相关 性 和 空间 异 质 性 进行 判断 ,或 对 其 校正 
后 使 用 的 经 典 的 统计 学 方法 进行 分 析 , 或 选择 合适 的 空 间 统 计 指 标 或 空间 分 析 模 
型 对 其 进行 利用 从 而 挖 扬 更 多 的 信息 。 
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收集 数据 是 科学 研究 的 起 点 ,有 穷尽 枚 举 法 和 抽样 调查 两 种 方法 。 抽 样 调查 
相对 于 穷尽 枚 举 法 的 优点 在 于 :减少 费用 ,如 果 数 据 的 代表 性 被 全 部 数据 集中 的 
一 小 部 分 所 保证 ,那么 样本 估 值 费用 将 比 完 全 调查 要 少 ;四 提高 速度 ,对 小 样本 的 
收集 和 总 结 较 完全 样本 集 收集 为 快 ;@ 提 高 精度 , 当 样 本 量 少时 ,可 以 选择 数据 质 
量 更 好 的 样本 ,并 更 加 集中 精力 于 少量 样本 采集 处 理 以 提高 样本 质量 ,基于 高 质量 
的 小 样本 量 估计 有 可 能 较 大 样本 估计 精度 更 高 。 一 个 好 的 或 效率 高 的 抽样 调查 方 
案 是 指 用 较 少 的 样本 量 获取 精度 较 高 的 统计 估计 值 。 

经 典 抽样 方法 (Cochran,1977) 已 经 广泛 运用 于 工程 .社会 经 济 调查 ,土壤 调 
查 , 生 态 研究 ,土地 利用 和 流行 病 学 调查 ,其 理论 前 提 是 样本 互相 独立 。 但 是 ,空间 
分 布 的 研究 对 象 通常 具有 空间 相关 性 ,用 经 典 抽 样 法 调查 空间 分 布 对 象 时 效率 较 
低 , 也 就 是 给 定 总 体 估 值 精度 要 求 ,需要 更 多 的 样本 量 ; 同 时 ,样本 的 离散 方差 
(dispersion variance) Az ^E EZE Eg Ci (415) (FC FE 2s f (8 77 2€ (variance of superpopu- 
lation mean estimated by sample mean) {KAF (Haining, 1988) , n Яй ЙЧ GARE 8 
样本 估 值 方差 (variance of observable population mean estimated by sample 
mean) 被 高 估 (Ripley,1981)。 因 此 ,在 调查 具有 空间 分 布 的 对 象 ,以 及 用 空间 样本 
数据 对 总 体 进 行 统计 推断 时 ,应 当 采 用 考虑 空间 相关 性 的 空间 抽样 理论 和 方法 
(Atkinson, 1991; Foody, 2002; Griffith et al. , 1994; Haining, 2003; Rodriguez- 
Iturbe and Mejia, , 1974; Stehman, 2003; E 271% , 2009) 。 

空间 抽样 及 统计 推断 按 五 步骤 完成 :第 一 步 , 确 定 抽样 目的 。 可 以 是 研究 区 
域 , 即 总 体 (population) 的 均值 (mean) 或 总 值 (total) ;或 未 抽样 点 值 (values at un- 
sampled sites) , 即 空间 插值 (spatial interpolation) ; 极 值 ; 秩 ; 或 其 他 地 学 特征 值 . 
不 同 目的 决定 了 不 同 的 样本 估 值 公式 及 估 值 误差 度量 公式 。 第 二 步 ,选择 布 样 方 
式 。 可 以 是 简单 随机 布 样 (random sampling)、( 空 间 等 间隔 ) 系 统 布 样 (systematic 
sampling) 或 (空间 ) 分 层 ( 即 地 学 中 的 分 区 ) 布 样 (stratified sampling)。 简 单 随机 
布 样 较 易 实 施 , 但 样本 容易 居于 几 偶 ,如 果 研 究 对 象 呈现 出 空间 聚集 性 ,将 导致 样 
本 估 值 易 受 某 些 局 域 控制 ,没有 反映 总 体 ; 系 统 布 样 较 易 实施 ,但 如 果 研 究 对 象 呈 
现 有 规律 的 空间 分 布 时 ,等 间距 的 系统 布 样 容 易 造 成 估 值 偏 移 (bias) ;分 层 布 样 要 
求 在 布 样 之 前 ,根据 先 验 知识 对 研究 区 划分 为 相对 均匀 的 若干 子 区 域 ,然后 在 各 子 
区 域内 实施 简单 随机 或 系统 布 样 ,效率 较 高 ,区 划 的 准确 性 影响 分 层 抽 样 效率 。 第 
三 步 , 计 算 样 本 量 和 估 值 精度 的 关系 曲线 ,或 者 根据 给 定 的 样本 量 计算 估 值 精度 ， 
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或 根据 估 值 精度 要 求 计算 所 需要 的 样本 量 。 前 三 步 均 在 室内 进行 。 第 四 步 ,根据 
第 三 步 室 内 设计 的 抽样 方案 ,实施 野外 抽样 . 取 值 。 第 五 步 ,根据 第 四 步 获取 的 样 
本 值 ,计算 总 体 估 计 值 . 估 值 方差 .置信 区 间 等 ,抽样 及 统计 推断 完成 。 

从 调查 区 域 A ШИ n 个 样本 单元 ,用 于 估计 区 域 属 性 均值 或 总 量 ,或 空间 
插值 制图 等 不 同 目的 ,对 应 不 同 的 抽样 或 监测 网 的 误差 评价 指标 。 


1. 估计 可 观测 区 域 均值 (observable population mean) 和 超 总 体 均值 (super- 
population mean) 
用 样本 均值 (1/m) D) y, 估计 可 观测 总 体 均值 (1/A) | yds 时 产生 的 误差 
可 用 区 域 均值 方差 
vad = Е| = Dy, f cas) (5.1) 
来 度量 。 这 里 E 为 数学 期 望 ,” 为 样本 单元 数目 ,y, 为 第 i 个 样本 单元 的 属性 值 ， 
i€ A, 为 空间 离散 可 数 的 点 位 ; (1/A) | GO ds 是 区 域 A 可 观测 的 总 体 均值， 
sEA, 为 空间 连续 无 穷 点 位 。 总 体 均值 一 般 由 n 个 样本 单元 的 数学 平均 值 
(1/n) 2 y: 来 估计 。 这 一 内 容 形成 抽样 理论 (Cochran,1977; Haining, 2003; Е 
劲 峰 等 ,2009)。 当 实施 简单 随机 布 样 时 ,上 式 成 为 (n = (1— reb ns XE o 是 
离散 方差 ,r 是 空间 相关 性 。 理 论 上 ,这 里 的 区 域 均值 (1/A) | y(s)ds 通过 穷尽 


所 有 点 位 s 的 值 y(5) ,是 可 观测 到 的 (observable) , 估 值 的 方差 v(n) 来 源 于 样本 点 
MUAR REKA) ,以 及 样本 点 空间 分 布 的 随机 性 (random) ,而 区 域 各 点 的 值 
被 认为 是 固定 不 变 的 (fixed)。 以 此 为 目 的 的 抽样 被 称 作 基 于 设计 的 抽样 (design 
based sampling) (Brus and Gruijter, 1997; Haining, 2003) ; 即 样本 估 值 的 不 确定 性 
来 源 于 对 样本 单元 空间 分 布 的 设计 。 实 际 上 ,可 观察 到 的 总 体 (obser vable popu- 
lation) 只 是 空间 过 程 的 总 体 或 称 超 总 体 (superpopulation) 的 一 次 实现 (one reali- 
zation) ,如 要 估计 空间 过 程 的 总 体 E[ (1/A) | yeas], 即 超 总 体 , 则 估 值 的 方差 


v(n) 来 源 于 样本 点 (n) 没 有 穷尽 全 体 (A), 以 及 样本 点 值 的 随机 性 (random) ,即使 
样本 著 盖 全 区 域 , 其 样本 均值 im 1/200 У) y, 虽然 等 于 可 观测 总 体 均值 


C/A) | ,>(s?ds, 但 不 等 于 超 总 体 均值 E[1/A)  y(s)ds]。 当 实施 简单 随机 布 样 


时 ,样本 均值 对 超 总 体 均值 的 估计 方差 为 wz) 王 (1 十 =)os/m, 这 里 只 是 离散 方差 ,> 
是 空间 相关 性 ,此 时 ,样本 点 位 被 认为 是 固定 不 变 的 (fixed)。 以 估计 超 总 体 均值 
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为 目的 的 抽样 被 称 作 基于 模型 的 抽样 (model based sampling) (Brus and Gruijter, 
1997; Haining, 2003) 。 

在 资源 抽样 调查 中 ,当前 和 当地 的 总 体 值 是 调查 目标 , 较 多 采用 基于 设计 的 抽 
样 理论 ,用 于 估计 可 观测 的 总 体 ; 当 抽样 调查 的 目的 是 研究 致 病因 子 或 空间 过 程 
时 ,需要 掌握 规律 性 ,或 多 次 实现 的 平均 状况 , 即 超 总 体 参 数 ,此 时 较 多 使 用 基于 模 
型 的 空间 抽样 理论 。 当 不 涉及 空间 分 布 对 象 抽样 时 ,没有 一 次 性 实现 的 问题 ,所 以 
没有 超 总 体 概念 ,此 时 基于 设计 的 抽样 和 基于 模型 的 抽样 完全 一 致 。 


2. 空间 插值 和 绘制 地 图 (interpolation and mapping) 
区 域 插 值 误差 v;(n) 可 用 以 下 公式 
S60 e ES! Gy, gt (5. 2) 
KER, RE п ВЕЖА LE ЛОИ НВ, ij 为 空间 点 位 ,y 是 第 ; 点 的 样本 值 ， 
ш, 为 权重 。 未 抽样 点 y 的 属性 值 用 其 他 抽样 点 的 加 权 平 均 > шу, 来 估计 ,使 


上 (2 最 小 化 的 few) 为 权重 。 这 一 内 容 形成 Kriging 理论 (Issaks and Srivatava, 
1989;Christakos,2005)。 给 定 样本 量 , 使 w (п) —9 min 的 zw 值 ,同时 样 点 布局 也 是 
可 变 的 。 具体 可 以 用 搜索 算法 ,如 模拟 退火 法 .粒子 群 算法 .基因 算法 、 蚂 蚁 算法 
等 ,达到 最 优 的 样 点 布局 。 


3. 估计 区 域 特征 值 


除 以 上 一 些 区 域 特征 值 (features of population) 或 参数 外 ,离散 方差 .空间 相 
关 性 、 半 变异 函数 ,区 域 极 值 秩 、 直 方 图 等 也 可 以 通过 抽样 估计 来 获得 。 其 误差 研 
究 较 少 (Christakos,2005) 。 

以 下 以 估计 区 域 可 观测 均值 (observable population mean) 为 目标 ,也 就 是 基 
于 设计 的 抽样 ,介绍 几 种 主要 方法 。 


5.1 空间 简单 随机 抽样 


空间 简单 随机 抽样 的 均值 和 方差 分 别 为 (Ripley,1981) 

ӯ = a/d У), 
v, E[C(X.YO] 
n 


n 
(5. 3) 


NN ; — РМА‏ ا 
va) = E| + Xv, Al ras |= Ls E[C(X,Y)]) =‏ 
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式 中 ,oj 为 离散 方差 ,X,Y 为 在 区 域 A 中 服从 均匀 分 布 的 随机 变量 ,CCX,Y) 为 变 
ht X.Y 的 协 方差 ,y, 为 样本 点 i 的 观测 值 ,y(s) 为 研究 区 任何 一 点 s 的 属性 值 ,EE 
为 数学 期 望 。 从 上 式 可 知 ,空间 抽样 均值 方差 比 传统 的 抽样 均值 方差 ( 吗 /7 小 , 减 
少 的 基 是 (1/m)ELC(X,Y)]。 据 此 ,给 定 用 户 期 望 抽 样 方差 m ,样本 量 ”计算 公式 

п —(1l/u) (2, ЕІ CCX.YO T 


(5.4) 
= псі ( 1 r) 


式 中 ,new 为 传统 简单 随机 抽样 根据 用 户 期 望 抽 样 调查 估计 方差 计算 的 样本 量 ,> 
为 空间 相关 系数 。 在 简单 随机 抽样 模型 中 计算 样本 量 的 方法 ,都 可 以 用 到 空间 简 
单 随机 模型 ,但 是 算出 来 的 样本 量 nc 根据 上 式 调整 为 新 的 样本 量 n, 


5.2 空间 系统 抽样 


在 系统 抽样 中 ,首先 确定 抽样 间隔 ,然后 在 第 一 个 间隔 内 随机 选择 一 个 样本 ， 
后 续 的 样本 就 在 第 一 个 选择 的 样本 基础 上 加 上 抽样 间隔 得 到 。 例 如 ,在 总 体 单元 
数 为 N 的 条 件 下 每 个 单元 按照 1,2, N 编号 ,系统 抽样 的 间隔 是 20, 第 一 个 随 
机 样本 是 16, 那 么 第 二 个 样本 是 36 ,第 三 个 样本 是 56, 直 到 每 个 系统 间隔 内 都 有 
一 个 样本 。 这 种 抽样 方法 是 在 一 维 空间 中 抽样 。 

空间 系统 抽样 是 将 样本 点 平均 分 布 到 二 维 区 域 A 中 。 在 空间 系统 抽样 中 , 根 
据 抽样 样本 量 和 抽样 区 域 的 几何 形 
状 , 计 算 抽 样 间隔 ,间隔 大 小 要 尽量 满 
足 样 本 量 能 够 均匀 分 布 在 二 维 空间 
中 。 在 空间 布 样 时 ,首先 在 区 域 中 随 
机 选择 一 个 样本 ,然后 根据 样本 间隔 ， 
在 久 轴 和 YY 轴 两 个 方向 上 ,按照 抽样 
间隔 选择 样本 点 ,如 图 5. 1 所 示 。 

空间 系统 抽样 的 样本 量 计 算 公 式 
可 以 与 空间 简单 随机 抽样 一 样 ,首先 5.1 系统 抽样 分 布 图 
根据 经 典 简单 随机 抽样 模型 的 样本 量 no. ,被 (1 一 r) 相 乘 ,得 到 新 的 样本 量 n. 
通过 样本 量 n 和 抽样 区 域 A 的 面积 和 形状 计算 样本 布设 采用 的 抽样 间隔 。 按 照 
抽样 间隔 ,以 抽样 区 域 A 中 随机 选择 的 样 点 为 中 心 , 在 义 轴 和 YY 轴 两 个 方向 上 布 
设 样 点 ,在 布设 的 新 样 点 周围 ,都 按照 抽样 间隔 放置 样本 ,直到 所 有 样本 布设 完毕 ， 

空间 系统 抽样 统计 推断 时 ,样本 均值 是 总 体 均值 的 无 偏 估计 。 其 计算 公式 如 下 ， 


"иж 
1 < 
П 
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式 中 ,7 表示 研究 区 域 A 中 的 样本 均值 ;nw# 为 所 有 抽样 的 样本 量 ;y, 是 抽样 点 i 


的 值 。 
空间 系统 抽样 均值 的 方差 为 
2 4 a 02 ee te !'* Lan J Sa 
ECy — YCA)) = m сч.) 22; 2. J Conde |J (t,s)dtds 


(5. 6) 
式 中 ,El(y 一 YCA)) 为 样本 均值 方差 ;C(i, 站 为 i,i 两 点 的 协 方差 ,C G DAC (4,84) 
别 是 点 i 和 + 与 点 s 之 间 的 协 方差 ;t,s HA 上 的 连续 点 位 ;a 为 区 域 A 的 面积 ; 
nay 77 ny [RR 为 系统 抽样 的 样本 间 的 间隔 。 
当 研 究 对 象 具有 较 强 的 空间 相关 性 的 时 候 , 系 统 抽 样 能 够 比 空 间 随机 抽样 更 
好 地 测量 到 研究 对 象 的 空间 变异 ,利用 Kriging 插值 对 研究 区 域 表面 插值 时 ,空间 
系统 抽样 比 空间 随机 抽样 有 具有 更 高 的 精度 ,因为 系统 布 样 与 随机 布 样 相 比 ,前 者 空 
间 分 布 较 均匀 。 


5.3 空间 分 层 抽样 


针对 空间 分 异 的 调查 对 象 ,可 以 先进 行 空 间 分 区 (zonation) ,再 用 空间 分 层 抽 
样 方法 (stratified sampling) 进 行 空间 布 样 和 统计 推断 。 

传统 分 层 抽样 中 ,样本 点 没有 空间 坐标 信息 ,根据 Cochran 分 层 标准 ( 层 内 方 
差 小 , 层 间 方差 大 的 分 层 标 准 ) ,分 层 属性 值 相 对 近似 的 值 被 分 到 同一 层 即 同一 小 
Hk (Wang et al. ,1997)。 根 据 这 个 分 层 标 准 用 一 般 的 聚 类 算法 如 K-means 算法 
对 空间 对 象 分 层 时 ,会 遇 到 分 层 结 果 在 空间 上 是 离散 分 布 的 ,如 图 5. 2 所 示 。 





图 5.2 分 层 图 
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从 图 5. 2 可 以 发 现 ,分 类 结果 散布 在 整个 研究 区 域 中 。 根 据 Tobler 地 理学 第 
一 定律 ,距离 越 近 的 对 象 ,对 象 的 相似 程度 越 高 。 如 果 按 照 传统 的 分 层 抽 样 方法 ， 
同一 层 的 对 象 ,可 能 相距 很 远 , 甚 至 在 空间 上 被 其 他 的 层 所 分 开 。 因 此 ,空间 分 层 
抽样 ,除了 要 求 层 内 方差 小 , 层 间 方差 大 以 外 ,还 要 求 兼顾 到 同一 个 层 的 对 象 ,能够 
在 空间 上 连 在 一 起 。 对 图 5. 2 调整 后 ,结果 如 图 5.3 所 示 。 





图 5.3 调整 分 层 图 (图 中 各 多 边 形 为 不 同 子 区 ) 


在 空间 分 层 抽样 中 ,空间 研究 区 域 A 被 划分 为 工 个 层 ( 或 者 分 区 ) ,首先 按照 
分 层 随机 模型 计算 研究 区 域 总 样本 量 ; 然 后 将 样本 量 按 层 权 重 W. 分 配 到 每 个 层 
内 ,可 以 平均 分 配 、 按 各 层面 积 占 全 部 研究 区 域 面积 比例 分 配 、 按 各 层 离散 方差 与 
面积 乘积 比例 分 配 等 ,其 抽样 效率 按 此 顺序 提高 , 当然 模型 输入 的 量 也 需要 增加 ， 
层 权 重 可 依据 抽样 效率 和 参数 可 获取 性 选择 ;最 后 在 每 个 层 内 部 进行 简单 随机 布 
样 。 经 过 野外 获取 样本 数据 以 后 ,计算 各 个 层 的 样本 均值 和 方差 。 均 值 的 计算 公 
式 同 简单 随机 均值 计算 公式 一 样 采用 


Je 


ly 
n. i-i 
AP, y 为 第 z 层 ( 抽 样 理论 中 的 分 层 strata= zone 在 地 理学 中 的 分 区 ) 样 本 均值 ; 
n, 为 第 = 层 抽 样 的 样本 个 数 ;y.; 为 第 = 层 中 第 i 个 样本 的 值 。 在 每 个 层 内 部 , 均 
值 方差 的 计算 公式 采用 空间 随机 抽样 中 计算 均值 方差 的 公式 


1 < 
v.) SEG: — Y. |2) = [Lo —E(C,Gi,j))] (5.8) 


式 中 , 为 第 = 层 (strata, 地 理 中 为 分 区 ) 可 观测 总 体 均 值 ;oi, 为 第 z 层 的 离散 方 
差 ;C:(i,j) 为 第 z 层 内 第 i,j 两 点 间 的 空间 协 方差 。 在 得 到 各 个 层 的 均值 和 方差 
后 ,计算 研究 区 域 均值 和 方差 


(5. 7) 
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L 
y = (1/n) Sn. (5.9) 


z~] 


5.4 空间 三 明治 抽样 


现 有 的 抽样 方法 ,都 是 针对 一 个 报告 单元 :报告 北京 市 大 气 污染 状况 ,需要 在 
北京 市 放置 至 少 2 个 样本 ;报告 中 国 的 人 口 ,需要 在 中 国 放 园 若干 样本 ;报告 中 国 
2700 个 县 各 县 的 GDP, 需 要 在 每 个 县 至 少 放置 2 个 样本 ,全 国 更 需要 至 少 2X 
2700—5400 个 样本 ! 即 样本 按 报告 单元 放置 (图 5. 4(a))。 可 见 , 当 有 多 个 报告 单 
元 时 ,使 用 现 有 抽样 方法 ,样本 量 大 ,费用 高 。 


报告 层 
{ 例 : 省 /县 ) 


知识 层 

(分 区 单元 ) Е = 
=| | š 
样本 层 

(样本 集合 ) 





HRE 
(调查 对 象 ) 


(a) 单 报告 单元 (b) 多 报告 单元 
图 5.4 空间 抽样 (Wang et al. ,2002b) 


Wang 等 (2002b) 提 出 空间 抽样 三 明治 模型 ,解决 了 多 报告 单元 抽样 问题 ,可 
以 用 较 少 的 样本 量 实现 多 单元 报告 。 在 空间 抽样 三 明治 模型 中 ,样本 按 区 划 层 配 
分 ,计算 出 各 区 划 单 元 的 样本 均值 和 样本 均值 方差 ;将 报告 单元 层 与 区 划 层 释 加 相 
切 , 将 区 划 层 的 均值 及 均值 方差 推演 到 各 报告 单元 中 ,得 到 各 报告 单元 的 均值 . 均 
值 方差 (图 5.4(b) ) 。 

首先 ,样本 按 空间 分 层 抽样 (spatial stratified sampling) 放 置 到 各 区 划 单 元 
中 ,均值 和 均值 方差 


ӯ. = na) Y y, 
pol 
v(¥.) =(1 —r,)v,Cy,)/n., (5. 10) 
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"ep 
v. Cy) =(1/n,,) >) (y, — y 
p=1 


n,, —S,v.Cy, )/ 3 Sv, Cy,) 
式 中 ,y, 为 第 p 个 样本 单元 值 ,n., 为 第 z 层 (stratum) 的 样本 单元 数目 ,S. 为 第 z 
BAR r, 为 第 = 层 空间 相关 系数 。 各 报告 单元 的 均值 和 均值 方差 为 


Nye 
y, = 2, Wy. 
N 


V(y,) =X WLV.) п; 
zz] 


Wri =N,./N, 
式 中 ,NN,: 为 报告 单元 x 中 区 划 单 元 的 数目 ,N, 和 N,- 分 别 为 第 r 报告 单元 中 总 体 
样本 单元 数 和 报告 单元 与 区 划 单 元 相 切 区 域 中 的 总 体 样本 单元 数目 ,W,. 为 rz 多 
边 形 的 面积 占 第 r 个 报告 单元 的 比例 ,元 为 第 层 (小 区 ) 的 样本 均值 。 

已 知 报告 单元 图 层 {”} 和 区 划 单 元 图 层 {z}, 由 以 上 关于 分 层 (区划 ) 和 报告 
单元 -的 两 组 方程 :四 给 定 总 样本 量 n 和 各 区 划 单 元 配 分 样本 量 no ( 均 分 , 按 面积 
比例 、 按 离散 方差 比例 等 ), 可 计算 各 报告 单元 均值 y, 及 其 方差 V (y, OWE 
BEER УСУ, ,可 计算 需要 样本 量 п 和 最 优 分 区 配 分 样本 量 n., 。 
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可 用 www. sssampling. com 提供 的 软件 * 空 间 抽 样 与 统计 推断 软件 包 
(SSSD ”计算 。 


1. 空间 随机 抽样 


为 了 解 2000 年 山西 省 和 顺 县 林地 材 被 类 型 的 面积 ,需要 从 N 一 2697460 个 影 
像 单元 中 抽取 一 定数 量 进行 抽样 调查 (最 小 调查 单元 为 TM 影像 像 元 ) ,要 求 显著 
性 水 平 为 0. 05 时 绝对 误差 不 超过 80km: ,根据 以 前 的 调查 结果 ,全 县 林地 面积 的 
离散 标准 差 约 为 1. 52 10 km? ,空间 相关 系数 为 r=0. 15。 

先 估算 每 个 像 元 的 平均 林地 面积 ,将 此 平均 数 乘 以 总 的 像 元 数量 , 即 为 该 县 总 
的 林地 面积 。 

(1) 平均 每 个 像 元 林地 面积 的 允许 绝对 误差 为 

d —80/2697460— 2. 97 X 1075 
Zi-42 * 6; 1. 96? X (1. 5X10^*)? 


=(1—0. 15) —— — — — =83. 53022 


(2) n=(1—r) 。 
2 " d? (2. 96575 X 10-5)? 
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也 就 是 说 ,实际 总 的 样本 量 为 84, 扩 大 10% 后 抽取 出 的 样本 量 为 93。 
(3) 根据 所 抽取 的 93 个 像 元 的 样本 均值 了 估算 总 林地 覆 被 面积 Y 为 
NS 5 п 2 + 93 Z е 
Fe 22» 33 245 401. 21m 
Y =Ny = 2697460 X 401. 21 = 1082258597. 75m? ~ 1082. 26km? 
(4) 估 值 绝对 误差 


(Y= 9(O0 = NT (y) 212. 57km? 
2. 系统 抽样 


为 了 解 2000 年 山西 省 和 顺 县 林地 覆 被 类 型 的 面积 ,需要 从 № — 2697460 个 影 
像 单元 中 抽取 一 定数 量 进行 抽样 调查 (最 小 调查 单元 为 TM 影像 像 元 ) ,要 求 在 正 
式 抽 样 之 前 先进 行 预 抽 样 出 20 个 样本 , 预 抽 样 的 方差 为 1.5X10 怀 km: 。 根 据 以 
前 的 调查 结果 ,全 县 林地 面积 离散 方差 约 为 1.5X10““km ,期 望 均值 方差 о < 
1. 6X10 кт, 

先 估算 每 个 像 元 的 平均 林地 面积 ,将 此 平均 数 乘 以 总 的 像 元 数量 , 即 为 该 县 总 
的 林地 面积 。 

(1) 





Si 21 1.5X10^ 2 
— райе 
即 实际 总 的 样本 量 为 100, 扩 大 10% 后 抽取 出 的 样本 量 为 110。 这 里 S 为 预 抽 样 
方差 ;m 为 预 抽样 样本 量 。 
10) 从 TM 均匀 分 布 抽取 110 个 像 元 ,计算 样本 均值 了 及 估算 总 林地 覆 被 面 
# Y A 
y = Ly = У), = 367. 24m’ 


n jst i=] 
Y = Ny = 2697460 X 367. 24 = 990614287. 87m? == 990. 61km? 
(3) 估 值 绝对 误差 


v) - A v G) =, | № z 178) — 101. 07km? 


式 中 ,op 是 离散 方差 ,v(7) 是 样本 总 体 估 值 的 标准 差 ,” 是 采样 量 , N 是 全 体 。 当 
使 用 空间 系统 抽样 时 ,需要 考虑 空间 相关 性 ,样本 量 、 均 值 .均值 方差 都 将 发 生 
变化 。 


3. 分 层 抽样 
为 了 解 2000 年 山西 省 和 顺 县 林地 面积 ,需要 从 N= 2697460 个 影像 单元 中 抽 
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取 一 定数 量 进行 抽样 调查 (最 小 调查 单元 为 TM 影像 像 元 ) ,要 求 总 的 调查 的 期 户 
标准 差 为 vu, =0. 065km 左右 ,根据 经 验 将 调查 区 分 为 5 层 (strata) ,并 得 知 各 分 层 
单元 的 标准 差 和 调查 费用 ( 表 5. 1). 
表 5.1 各 层 (strata) 标 准 差 和 费用 
же 01 02 03 04 05 
标准 差 S. 54 78 76 80 64 
费用 C 1500 1200 1400 1300 1000 





(1) 总 的 最 优 样本 量 
_ (EWS, VC) DWS/ VCS _ ^" 
х V + (1/N) W.S: i 

即 实际 总 的 最 优 样本 量 为 72, 扩 大 10% 后 抽取 出 的 样本 量 为 81。 这 里 W, 为 第 < 
层 权 重 , 取 第 = 层 占 全 部 研究 区 域 的 面积 比例 。 

(2) 各 分 层 样本 量 ( 表 5. 2) 为 

W.S./ /C. 
Nu ne e 

22 (W.S./ VCD 


表 5.2 各 层 (strata) 最 优 样本 量 


层 号 01 
PEATE n. 17 16 13 15 11 
— ee 
(3) 根据 抽取 的 81 个 样本 点 估计 总 的 林地 覆 被 面积 为 
L 


ӯ. = >) ӯ, XW, = 326. 43m? 
1 


(5.12) 


Y = Ny,, = 2697460 X 326. 43 — 880513975. 55m? а= 880. 51km? 
(4) 估 值 绝对 误差 


=V v (Y) — / N'olCGy) —19. 47km? 
4. 空间 三 明治 抽样 


采用 山东 省 2000 年 从 遥感 数据 TM 影像 通过 解 译 得 到 的 耕地 面积 数据 数 
据 基本 格 网 大 小 是 2kmX2km, 如 图 5. 5(a) 所 示 , 山 东 省 内 一 共有 39233 个 格 网 。 
根据 山东 省 耕地 面积 空间 异 质 性 的 变化 情况 , 将 山东 省 分 成 6 个 区 域 , 如 
5. 5(b) 所 示 。 


-) 
n2 











面积 /km 

Г 0~0.72 

0.72~1.71 0 100 200 
1.71-2.59 mm km 
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328-4 





(a) 精 地 数据 zkm X 2km 





(b) 耕地 数据 分 层 
图 5.5 山东 省 耕地 数据 


本 案例 共 定 义 了 三 种 报告 单元 :山东 省 17 个 行政 区 ,山东 省 内 4 个 流域 和 
50km X 50km 的 格 网 ,如 图 5. 6 所 示 。 
抽样 均值 的 精度 根据 相对 误差 评定 
R=(y—Y)/Y (5. 13) 
AP, y ALY 分别 为 样本 均值 和 观测 总 体 均 值 , 前 者 通过 三 明治 模型 估计 得 到 ,后 
者 根据 图 5. 5(a) 所 有 数据 统计 得 到 。 三 种 不 同情 况 下 的 报告 单元 的 精度 评价 如 
# 5. 3 Br. 
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等 样本 量 分 层 放 样 
面积 比例 分 层 放样 
方差 比例 分 层 放 样 


图 5.6 报告 单元 
表 5.3 报告 单元 精度 评价 
行政 区 流域 Кер 
0. 062019 0. 019059 0. 0915 
0. 054366 0. 023566 0. 0927 
0. 053264 0. 020704 0. 0894 


第 6 章 点 格局 识别 


居民 点 的 空间 分 布 、 传 染病 暴发 点 的 空间 分 布 , 犯 罪 分子 的 空间 分 布 , 交 通 事 
故 的 空间 分 布 等 ,其 空间 分 布 是 随机 、 人 聚集 还 是 均匀 的 ? 对 其 识别 可 以 帮助 人 们 寻 
找事 件 的 发 生 原因 以 及 控制 方案 。 

空间 点 格局 是 一 系列 不 规则 地 分 布 于 研究 区 域 中 的 点 位 组 成 ,不 考虑 点 位 上 
的 属性 值 ,由 某 种 未 知 的 随机 机 制 生成 。 点 格局 识别 关注 的 是 研究 区 域内 的 点 在 
空间 上 分 布 的 特征 和 相互 关系 , 即 空间 分 布 格局 ,如 聚集 、 随 机 ,均匀 分 布 等 。 常 用 
的 点 要 素 空间 分 布 格局 识别 方法 包括 样 方 分 析 、 最 邻近 距离 指数 和 K 函数 分 析 。 


6.1 样 方 分 析 
1. 原理 


样 方 分 析 (quadrant analysis,QA) 用 一 组 正方 格 音 在 研究 区 域 上 ,通过 统计 每 
个 正方 格 内 的 点 数 来 计算 各 个 正方 格 之 间 样 点 数 的 均值 和 变 差 。 图 6.1 显示 了 З 
个 具有 不 同 空间 格局 的 研究 区 域 , 为 了 定量 探测 空间 格局 ,每 个 区 域 用 8 ТЕКЕШ 
盖 , 统 计 每 个 样 方 内 的 点 数 ,然后 统计 检验 其 空间 格局 是 随机 的 ? 分 散 的 ? ЖЛЕ 
集 的 ? 





(a) PLC) (b) 分 散 (xz 中 ) (с) BM X) 


FA 6.1 点 状 事件 空间 分 布 格局 的 三 种 类 型 
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识别 区 域内 的 样 点 格局 的 具体 指标 是 样 方 点 数 变 差 -均值 比 


vMR=3, VMR—X (n—1) (6. 1) 





式 中 , 样 方 之 间 样 点 数 标准 离散 方差 S — /一 > (X, — X): , 样 方 样 点 数 均值 


n—i 
X= 上 91 X, X, 为 第 i 个 样 方 内 点 数 ,n 为 样 方 数目 。 如 果 样 点 在 空间 上 是 随机 


分 布 , 即 其 发 生机 制 是 泊 松 过 程 , 则 离散 方差 S 等 于 均值 X ,如 图 6. 1(b) 所 示 。 样 
方 内 点 数 相同 ,点 格局 则 显示 出 样 方 与 样 方 之 间 样 点 数 的 不 变性 ,完美 离散 ， 
VMR=1, 3; VMR 天 1, 则 表示 样 点 分 布 不 是 随机 的 。 当 VMR>1 时 ,点 格局 较 
随机 分 布 更 加 聚集 。 如 图 6. 1(c) 所 示 ,考察 的 样 方 集 每 个 格 内 点 数 差 异 很 大 , 样 
方 点 数 变 差 将 是 大 的 ,点 格局 显示 出 聚集 安排 。 反 之 当 VMR<1 时 ,点 格局 较 随 
机 分 布 ,如 图 6. 1(a) 所 示 。 


2. 具体 操作 


首先 生成 覆盖 整个 研究 区 域 的 样 方 图 层 ,接着 统计 每 个 样 方 内 的 点 数 ,最 后 计 
算 样 方 点 数 变 差 - 均 值 比 VMR。 以 下 是 样 方 分 析 中 统计 每 个 样 方 内 点 数 步 骤 的 
部 分 VBA 代码 ; 


Set pfeatcur Quadrant-pfeatcls Quadrant. Update (Nothing, False) ' 选 出 样 方 
FERRE 
Dim pfeature Quadrant As IFeature Quadrant.pfeature Quadrant As IFeature 
Set pfeature Quadrant-pfeatcur Quadrant. NextFeature 
Dim pFilter As ISpatialFilter 
Dim pgeometry As IGeometry 
Dim pfields As IFields 
Set pfields-pfeatcls Quadrant. Fields 
Dim Point Num As Integer 
Point Num-pfields.FindField("T POINT") “ 样 方 层 的 点 数字 段 序号 ,保存 样 方 内 
总 点 数 
Do While Not pfeature Quadrant Is Nothing HW HRT EMT FE 
Set pgeometry=pfeature Quadrant. Shape 
Set pFilter=New SpatialFilter 
With pFilter ; 
Set. Geometry*pgeometry 
 Geomet ryField- "SHAPE" 
-SpatialRel-esriSpatialRelContains 
End With 


* 76 * 空间 数据 分 析 教 程 


:遍历 被 此 祥 方 图 斑 包 含 的 点 层 图 斑 

Set pfeatcur OvlPoint=pfeatcls Quadrant. Search (pFilter, False) 
Set pfeature OvlPoint=pfeatcur OvlPoint. NextFeature 

Dim Total Num As Integer 

Total Num=0 


Do While Not pfeature OvlPoint Is Nothing ' 汇 总 此 样 方 图 班 内 的 点 数 
Total_Num=Total Num+1 
Set pfeature_OvlPoint=pfeatcu_OvlPoint. NextFeature 
Loop 
pfeature Quadrant. Value (Point_Num)=Total Num 
pfeature Quadrant. Store 
Set pfeature Quadrant=pfeatcur Quadrant. NextFeature 
Loop 





6.2 最 邻近 距离 统计 
І. 原理 


最 邻近 距离 统计 (Nearest Neighbor Indicator, NND 是 统计 点 间 最 近 距 离 均 
值 。 其 思路 是 检验 每 个 点 所 占据 的 面积 , 即 通 过 比较 计算 最 邻近 的 点 对 的 平均 距 
离 与 随机 分 布 模式 中 最 邻近 的 点 对 的 平均 距离 ,用 其 比值 (NNI) 判 断 其 与 随机 分 
布 的 偏离 。 
最 邻近 距离 统计 的 计算 公式 如 下 : 
d(NN) = У) 


式 中 ,d(NN) 为 研究 对 象 的 最 邻近 的 平均 距离 ;n 为 样本 点 数目 ;d;; 为 第 i 点 到 第 7 
点 的 距离 ;min(d;; ) 为 i 到 最 邻近 点 的 距离 。 

d(NN) 
түз 
式 中 ,NNI 为 最 邻近 距离 系数 ;d(ran) 为 空间 随机 分 布 条 件 下 的 理论 平均 距离 ,其 
取 值 一 般 为 d(ran) —0.5 VA/n,A 为 研究 区 域 面积 。 为 了 检验 计算 结果 的 统计 
显著 性 ,可 采用 z 检验 


ий (6. 2) 
п 


(6. 3) 





„4030 —d(ran) 
SE, 


空间 随机 分 布 时 ,z 的 标准 误差 SEu = ИГОА CAY = 0 26136 
之 т xn — 


(6. 4) 
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最 邻近 距离 统计 认为 样 点 格局 随机 分 布 时 ,最 邻近 点 对 间 平 均 距离 与 平均 随 
机 距离 相等 ,NNI 二 1; 样 点 格局 聚集 时 ,最 邻近 点 对 间 平 均 距离 会 小 于 平均 随机 距 
离 ,NNI<1; 样 点 格局 较 随机 分 布 更 加 发 散 时 ,最 邻近 点 对 间 平 均 距 离 大 于 平均 随 
机 距离,NNI 一 1。 


2. 案例 


(1) 案例 使 用 的 是 CrimeStat 自 带 的 样本 数据 BALTPOP. DBF , 意 在 说 明 如 
何 用 CrimeStat 进行 最 邻近 距离 统计 分 析 。 

(2) 输入 数据 文件 BALTPOP. DBF( 图 6. 2)。 接 着 将 文件 中 LON 字段 数据 
作为 X 变量 ,LAT 字段 数据 作为 了 变量 ,DENSITY 字段 数据 作为 Z 变量 
(图 6.3)。 这 里 LON,LAT 和 DENSITY 分 别 为 经 度 .纬度 和 密度 。 


Separator 
Header 


Primary File [Secondary File | Reference File |Wenrorenent Parameters | 


Sis sa 
EEG — 


Туре of coordinate zystam 
@ Longtitede, le ti tode (spl 





图 6.3 变量 设置 
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(3) 选择 Spatial description>Distance Analysis I 界面 上 的 Nearest neighbor 
analysis 功能 (图 6. 4)。 当 最 邻近 距离 统计 分 析 中 计算 的 是 多 个 最 邻近 的 点 对 的 
平均 距离 与 随机 分 布 模式 中 相应 多 个 最 邻近 的 点 对 的 平均 距离 比值 时 ,需要 设 定 
参数 “最 邻近 点 的 个 数 ” 即 “Number of nearest neighbors to be” 值 。 一 般 软 件 默 认 
为 最 邻近 点 对 只 有 1 个 。“Border” 选 项 是 用 于 边界 纠正 ,其 作用 是 为 了 避免 漏 掉 
靠近 研究 区 域 边界 的 点 。 选 择 后 两 项 “rectangle” 或 “circle” ,表示 分 别 会 在 假设 研 
究 区 域 是 一 个 矩形 或 圆 形 的 前 提 下 调整 边界 。 Жа [RUE FEY ТЕ E WEE IT 
界 的 众多 点 的 最 邻近 距离 , 即 当 一 个 点 到 区 域 边界 的 距离 比 当 前 计算 所 得 到 最 邻 
近 点 对 之 间 的 距离 还 要 短 时 ,就 会 用 调整 后 最 邻近 点 之 间 的 距离 替代 这 个 点 到 边 
界 的 距离 。 


Spatial Distribution Distance Analysis I |pj stance ea II | Mot Spot” Analysis I ] Met Spot 
jV Nearest neighbor analysis — 
Number of nearest neighbors to be 
` Border @ None С e rA C Circula 
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Method of 
| ieri | 
Кале of assigned 
Use weighting (9 Me weyghi 
人 sf — 
© swore ti [ТТТ ome ГГ СУРУН 


Мале of assigned weighted 





图 6.4 Distance Analysis I 界面 


(4) 点 击 Distance Analysis I 界面 下 端的 Compute 按键 ,开始 运行 最 邻近 中 
离 统计 程序 。 从 下 面 的 运行 结果 展示 界面 (图 6. 5) 可 以 看 出 ,NNI 一 0. 82495<1, 
说 明 各 点 DENSITY 属性 在 研究 区 域内 呈 聚 集 分 布 。 
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图 6.5 分 析 结 果 展 示 





6.3 Ripley’s K 函数 
1. 原理 


点 状 地 物 的 分 布 模式 可 能 随 着 空间 尺度 的 变化 而 改变 。 在 小 尺度 下 可 能 呈现 
集群 分 布 ,而 在 大 尺度 下 有 可 能 为 随机 分 布 或 均匀 分 布 , Ripley’ s K 函数 CRri- 
pley’s K function) 可 以 分 析 任意 尺度 的 点 状 地 物 空间 分 布 格局 ,成 为 分 析 点 状 地 
物 分 布 格局 最 常用 的 方法 (Ripley,1981) 。 

Ripley’s K 函数 是 点 密度 距离 的 函数 ,其 按照 一 定 半径 距离 的 搜索 圆 范围 来 
统计 点 数量 。Ripley’”s K 函数 假设 在 区 域 点 状 地 物 空间 均匀 分 布 , 且 点 状 地 物 空 
间 密 度 为 4 情况 下 ,距离 d 内 的 期 望 样 点 平均 数 为 Axdi ,上 后 状 地 物 平 均 数 和 区 域 
内 样本 点 密度 比值 为 xd 。 与 此 同时 ,用 变量 Ripley's K(d) 表示 现实 情况 下 在 
距离 d 内 的 样本 点 平均 数 和 区 域内 样本 点 密度 的 比值 ,计算 公式 如 下 : 


K(d) = АУ) у) ® (6.5) 
i=} j=] n 


IUP un AAR w (d) 为 在 距离 4 范围 内 的 点 状 地 物 i 与 点 状 地 物 j 之 
间 的 距离 ;A 为 研究 区 域 面积 .。 

通过 比较 这 些 样本 点 平均 数 和 区 域内 样本 点 密度 比值 的 实测 什 与 理论 值 ， 
Ripley’s KER SSCP ESI ER М ч === аре J: 2 [Н] 6 ЖК, 2 i] ЖЕ, s 25 [Н] Bf LA 
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布 的 , 即 构造 如 下 指标 LC) ACD s 
L(d)= ae — ak A(d) = К(а) — па? (6.6) 
* Lid) sk АСАЖ била кан. 0 则 表明 其 呈 扩 散 分 布 。 
2. #4 


CD 本 案例 使 用 CrimeStat 自 带 的 样本 数据 BALTPOP. DBF ,也 是 将 数据 文 
件 中 LON 字段 数据 作为 X 变量 ,LAT 字段 数据 作为 了 变量 ,DENSITY 字段 数 
据 作 为 Z 变量。 这 里 LON,LAT 和 DENSITY 分 别 表示 经 度 .纬度 和 密度 。 

(2) 选择 CrimeStat 软件 中 Spatial description» Distance Analysis I 界面 上 
的 Ripley's “К” statistic 功能 (图 6. 6) 。 在 此 功能 里 ,软件 能 调动 Monte Carlo Hi 
拟 来 估计 L(d) 统 计量 的 一 个 大 致 的 置信 区 间 并 且 用 户 可 以 设 定 Monte Carlo 模 
拟 的 次 数 。L(d) 统 计量 计算 设 定 的 距离 范围 是 100 个 距离 单位 。“Border” 选 项 
仍然 用 于 边界 纠正 ,其 作用 是 为 了 避免 漏 掉 靠近 研究 区 域 边界 的 点 。 
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图 6.6 选择 Ripley’s “K” statistic 功能 


(3) 点 击 Distance Analysis 1 界面 下 端的 Compute 按键 ,开始 运行 Ripley's К 
函数 程序 。 运 行 结果 展示 界面 (图 6.7) 中 三 条 曲线 ,其 中 白 线 为 La) 曲线 ,被 
两 条 深 色 线 所 包 络 (置信 区 间 ), 可 以 看 出 ,指标 工 (d)( 图 上 表示 为 工 (1)) 在 
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0 一 10 个 距离 单位 之 间 都 大 于 0, 说 明 各 点 DENSITY 属性 在 研究 区 域内 呈 聚 集 
分 布 。 
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图 6.7 Ripley’s K 函数 分 析 结 果 展 示 
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空间 数据 插值 目标 是 :@ 对 不 足 或 者 缺失 数据 进行 估计 。 巾 于 观测 台 站 分 布 
的 密度 及 分 布 位 置 的 原因 ,不 可 能 任何 空间 地 点 的 数据 都 能 实测 得 到 ,需要 用 到 插 
值 ,以 了 解 区 域内 观测 变量 的 完整 空间 分 布 。 回 数据 的 格 网 化 。 规 则 格 网 能 够 更 
好 地 反映 连续 分 布 的 空间 现象 。@ 内 插 等 值 线 。 以 等 值 线 的 形式 直观 地 显示 数据 
的 空间 分 布 。 外 对 不 同 分 区 未 知 数据 的 推 求 ( 李 新 等 ,2000)。 

空间 插值 通过 已 知 的 空间 数据 来 预测 未 知 空间 数据 值 , 其 根据 是 已 知 观测 点 
数据 、 显 式 或 隐 含 的 空间 点 群 之 间 的 关联 性 ,数学 模型 以 及 误差 目标 函数 。 空 间 数 
据 插 值 一 般 包 括 以 下 过 程 :空间 样本 数据 的 获取 ;名 通过 对 已 获取 到 的 数据 进行 
分 析 , 找 出 空间 数据 的 分 布 特性 .统计 特 性 .和 空间 关联 性 ;加 根据 所 掌握 的 信息 
量 , 选 择 最 适宜 的 插值 方法 ;@ 对 插值 结果 的 评价 。 常 用 的 点 数据 插值 方法 有 统计 
学 方法 、 随 机 模拟 方法 ,物理 模型 等 。 这 些 方法 运行 代价 不 同 .统计 性 质 不 同 ,没有 
绝对 的 最 优 ,插值 结果 需要 检验 。 


7.1 趋势 面 方法 
1. 原理 


趋势 面 方法 是 一 种 整体 插值 方法 , 即 整 个 研究 区 使 用 一 个 模型 .同一 组 参数 。 
它 先 根据 有 限 的 空间 已 知 样本 点 拟 合 出 一 个 平滑 的 点 空间 分 布 曲面 函数 ,再 根据 
此 函数 来 预测 空间 待 插值 点 上 的 数据 值 。 实 际 上 ,趋势 面 方法 是 一 种 曲面 拟 合 的 
方法 。 如 何 通 过 对 已 知 点 空间 分 布 特征 的 认识 来 选择 合适 的 曲面 拟 合 函 数 是 趋势 
面 方法 的 核心 。 传 统 的 趋势 面 方法 是 通过 回归 方程 ,运用 最 小 二 乘法 拟 合 出 一 个 
非 线 性 多 项 式 函 数 。 当 对 二 维 空间 进行 拟 合 时 ,如果 已 知 样本 点 的 空间 坐标 (z， 
y) 为 自 变 量 , 而 属性 值 z 为 因 变 量 , 则 其 二 元 回归 函数 为 

一 次 多 项 式 回 归 :z=ao 十 a1x 十 qasy 十 e 

二 次 多 项 式 回 归 :z 一 ao 十 aiz 十 azy 十 ax 好 十 ay 十 as 并 十 E 
式 中 ,ao а; заг заз аза 为 多 项 式 系数 :e 为 误差 项 。 

趋势 面 方法 极 易 理解 ,计算 简便 , 它 适 用 于 :全 以 表达 空间 趋势 和 残 差 的 空间 
分 布 为 目的 ;名 观测 有 限 , 插 值 也 基于 有 限 的 数据 。 当 趋势 和 残 差分 别 能 与 区 域 和 
局 部 尺度 的 空间 过 程 相 联系 时 ,趋势 面 方法 是 最 有 用 的 (Agterberg,1984)。 但 趋 
势 面 方法 所 用 的 是 一 个 平滑 函数 ,一 般 很 难 正 好 通过 原始 数据 点 。 虽 然 采 用 次 数 


(7.1) 
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高 的 多 项 式 函 数 能 够 很 好 地 逼近 数据 点 ,但 会 使 计算 复杂 ,而 且 降 低 分 离 趋 势 的 作 
用 。 一 般 多 项 式 函 数 的 次 数 为 2 或 3 就 可 以 了 。 


2. 案例 


(1) 案例 里 插值 所 用 图 层 p. shp 为 山西 省 和 顺 县 315 个 乡镇 的 位 置 分 布 图 
(点 文件 ) ,该 315 个 乡镇 为 和 顺 县 总 的 326 个 乡镇 中 1998 一 2001 年 出 生 人 数 大 于 
0 的 乡镇 ,对 全 县 各 村 纯 收 入 进行 趋势 面 拟 合 和 插值 ;va. shp 为 山西 省 和 顺 县 县 界 
的 面 文 件 ;trendsurf. ave 为 进行 趋势 面 分 析 用 的 Avenue script 程序 脚本 ， 

(2) 启动 Arcview 并 加 载 Spatial Analyst 扩展 模块 。 打 开 一 个 新 视图 ,把 
р. shp 和 va. shp 加 到 视图 中 。 从 View 下 拉 菜单 中 选择 Properties, 并 设 地 图 单位 
为 m。 | 

(3) f£ Project 窗口 中 点 击 Scripts 和 New 打开 Script 1。 在 Script 菜单 中 点 
击 Load Text File( 加 载 文本 文件 ) 按 钮 。 浏 览 trendsurf ave 的 路 径 并 双击 该 
文件 。 

(4) 为 了 使 用 Avenue script 程序 脚本 ,必须 点 击 Compile( 编 译 ) 按 钮 对 脚本 
进行 编译 。 因 为 trendsurface 规定 窗口 文件 为 激活 文件 ,必须 激活 窗口 文件 并 在 
Script 1 中 点 击 Run 按钮 来 运行 该 程序 脚本 。 和 运行 结束 之 后 ,出 现 如 下 所 示 的 趋 
势 面 示意 图 (图 7. D ,该 shp 文件 是 临时 文件 ,Grid 格 网 文件 保存 在 工作 目录 中 ， 
可 以 从 工作 目录 加 载 。 





图 ?7.1 趋势 面 生成 结果 示意 图 
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(5) 趋势 面 Grid 格 网 文件 包括 超出 和 上 顺 县 的 地 区 。 为 了 让 插值 结果 限制 在 
和 顺 县 范围 内 ,需要 使 用 一 个 分 析 屏 项 掩 膜 。 首 先 要 设置 输出 插值 结果 , 即 激活 和 
顺 县 县 界 va. shp 文件 ,从 Theme 下 拉 菜 单 中 选择 Convert to Grid, 将 输出 格 网 命 
名 为 hsgrd。 接 着 定义 插值 分 析 的 范围 ,就 是 在 Conversion Extent 对 话 框 中 ,选择 
Same As va. shp 作为 Output Grid Extent, 选择 As specified below 作为 Output 
Grid Size, 点击 OK。 然 后 在 Conversion Field 对 话 框 中 ,选择 Id 作为 单元 值 并 点 
i OK。 值 得 注意 的 是 不 要 把 要 素 属性 加 到 hsgrd 中 ,但 必须 把 hsgrd 加 到 视图 
中 。hsgrd 只 有 两 种 单元 值 ,在 和 顺 县 范围 内 取 值 为 1, 而 超出 该 范围 的 则 为 无 数 
据 。 案 例 使 用 hsgrd 作为 分 析 屏 项 掩 膜 图 。 从 Analysis 菜单 中 选择 Properties, 
在 Analysis Properties 对 话 框 中 ,选择 Same As hsgrd 作为 Analysis Extent, As 
Specified Below 作为 Analysis Cell Size,hsgrd 作为 Analysis Mask, 点 击 OK, #& 
后 激活 前 面 程 序 运行 输出 的 趋势 面 格 网 文件 (Grid2), 从 Analysis 菜单 中 选择 
Map Calculator, 在 Map Calculation 1 对 话 框 中 双击 Grid2 格 网 文件 ,然后 点 击 
Evaluate 按 钮 。 所 得 到 的 Map Caulculation 1 结果 同样 为 临时 文件 ,激活 该 图 层 ， 
从 Theme 下 拉 菜 单 中 选择 Convert to Grid 将 其 转换 为 Grid 格 网 文件 ,从 而 得 到 
如 图 7. 2 所 示 的 三 阶 趋 势 面 插值 图 。 


` al 
< 


>z 









净 收 入 
C3651.58—-1035.96 
= 1035.97~1219.55 
€ 1219.56~1380.19 
== 1380.2~1609,67 
= 1609.68~2114.54 


图 7.2 和顺 县 居民 纯 收 入 三 阶 趋势 面 插值 图 


7.2 反 距 离 加 权 法 (IDW) 


1. 原理 


基于 “地 理学 第 一 定律 ”的 基本 假设 , 即 邻 近 的 区 域 比 距离 远 的 区 域 更 相似 ,是 
最 简单 的 点 数据 内 插 方 法 。 它 输入 和 计算 量 少 ,不 过 这 种 方法 无 法 对 误差 进行 理 
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论 估 计 。 

设 待 插值 点 PCr ,yw*zp) 周 围 局 部 邻 域内 有 若干 已 知 样本 点 Q(x;,y,,z;)， 
i 三 1,…* yn ,其 中 (xz,y) 为 二 维 空间 坐标 ,x 为 该 点 的 属性 值 。 那 么 点 Р 的 属性 值 可 
以 通过 这 些 邻 近 点 的 属性 值 加 权 来 求 得 。 周 围 点 与 已 点 距离 远近 的 差异 ,对 尸 点 
的 影响 不 同 ,与 已 距离 近 的 点 对 已 点 影响 大 ,这 种 影响 用 权 函 数 zw 来 体现 。P 点 
的 属性 值 计 算 公式 如 下 ; 

=, = p S V (7. 2) 

AP az, 和 z; 分 别 为 待 求 点 值 和 样本 点 值 ;we; 为 Q, 点 对 于 PP 点 的 权 值 ,一 般 取 
w=1/d di HP AMQ 点 之 间 的 距离 ;a 为 控制 参数 ,a 越 大 ,权重 随 距 离 增 大 豪 
减 得 越 快 ;反之 ,a 越 小 ,权重 随 距离 增 大 衰减 得 越 慢 。 一 般 a 取 1~3, 常 常 取 a2, 

反 距离 加 权 法 是 以 插值 点 与 样本 点 之 间 的 距离 为 权重 的 插值 方法 ,简单 易 行 ， 


但 a 的 取 值 缺少 根据 ,插值 点 容易 产生 从 集 现 象 ,会 出 现 相近 的 样本 点 对 待 择 值 点 
的 贡献 几乎 相同 , 待 插值 点 明显 高 于 周围 样本 点 的 分 布 现象 . 


2. 案例 


(1) 案例 里 插值 所 用 图 层 villageresult. shp 为 山西 省 和 顺 县 315 个 行政 村 的 
位 置 分 布 图 (点 文件 ) ,该 315 个 行政 村 为 和 顺 县 总 的 326 个 行政 村 中 出 生 人 数 大 
于 0 的 行政 村 。 该 文件 内 相关 属性 表 的 字段 说 明 如 下 : NET_INCOME 一 一 净 收 
人 ;ROADBUFFER 一 一 道路 缓冲 区 。 

(2) 单 击 ArcInfo— Spatial Analyst 下 拉 第 头 , 单 击 Interpolate to Raster, 在 
弹出 的 下 一 级 菜单 中 单 击 Inverse Distance Weighted 命令 ,打开 IDW 对 话 框 
(Al 7. 3). 


Spatial Бауи т oc 


一 
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Bmaity . 





图 7.3 IDW 对 话 框 
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(3) 单 击 Input points 下 拉 箭 头 ,选择 样本 点 数据 集 villageresult. shp, 

(4) 单 击 Z value field 下 拉 箭 头 ,选择 参加 计算 的 字段 名 称 NET INCOME, 

(5) 在 Power 文本 框 中 输入 IDW 的 寡 值 。 守 值 是 一 个 正 实 数 ,其 缺 省 值 
为 2。 

(6) 单 击 Search radius type 下 拉 箭 头 , 选 择 搜索 半 径 类 型 Variable。 这 里 有 
两 种 类 型 :Variable 为 可 变 搜 索 半径 ,内 择 计算 时 样本 点 个 数 (Number of points) 
是 固定 的 ( 缺 省 值 为 12) ,搜索 距离 (distance) 是 可 变 的 ,取决 于 择 值 单元 周围 样本 
点 的 密度 ,密度 越 大 ,半径 越 小 ;Fixed 为 固定 搜索 半径 ,需要 规定 插值 时 样本 点 的 
最 小 个 数 (minimum number of points) 和 搜索 距离 ,搜索 距离 是 一 个 常数 ,对 每 一 
个 插值 单元 来 说 ,用 于 寻找 样本 点 的 圆 形 区 域 的 半径 都 是 一 样 的 。 如 果 搜 索 半 径 
距离 内 的 点 个 数 小 于 插值 点 个 数 的 最 小 整数 值 , 则 搜索 半径 自动 增 大 。 

(7) Use barriers polylines 项 用 于 指定 中 断 线 文 件 。 中 断 线 是 指 用 来 限制 搜 
索 输 入 样本 点 的 多 线段 数据 集 。 一 条 线段 是 一 个 打 断 表面 的 线 特征 ,悬崖 .峭壁 、 
堤岸 或 某 些 障碍 都 是 典型 的 中 断 线 。 中 断 线 不 必 具 有 Z 值 。 中 断 线 限 制 了 插值 
计算 , 它 使 得 计算 只 能 在 线 的 两 侧 各 自 进行 ,而 落 在 中 断 线 上 的 点 同时 参与 线 两 侧 
的 计算 。 

(8) 在 Output cell size 文本 框 中 输入 输出 结果 的 栅 格 大 小 。 

(9) 在 Output raster 文本 框 输入 结果 文件 名 称 netincome。 

(10) 单 击 OK 按钮 ,完成 操作 ,结果 如 图 所 示 ( 图 7. 4)。 


图 例 

C3 660,59—1091,90 
E3 1091.91~1396.36 
ER 1396.37-1865.73 
та 1865.74-2474.65 
Em 2474.66~3895.45 





图 7.4 IDW 插值 结果 
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7.3 Kriging 方法 
1. 原理 


在 Kriging 方法 中 ,一 个 待 插值 点 属性 = so ) 的 预测 值 С) gk JE: FEJE LB Wi 
范围 内 的 几 个 已 知 样本 点 变量 值 的 线性 组 合 。 其 估计 值 为 
z(5) = Die, (7.3) 
式 中 ,=(s ) 为 空间 里 点 so 的 预测 值 , =, 为 空间 点 s, 的 属性 变量 值 ,4; 为 待 求 系数 。 
ТЕ Kriging 方法 里 E(z) =m 为 未 知 常数 。 
插值 目的 就 是 求 出 诸 权 重 系数 4,,i 二 1,…,n, 使 预测 值 为 真实 值 的 无 偏 估 计 ， 
且 其 估计 方差 最 小 。 在 二 阶 平稳 条 件 下 , 即 空间 相关 性 只 与 两 点 距离 有 关 , 与 点 位 
无 关 。 为 使 预测 值 无 偏差 即 ECz s) = EC 20 s))) =m, AR 
УА; ==] (7.4) 
Kriging 方法 的 估计 方差 的 计算 公式 为 
v = E[ zo — £o ]* = C(x, +2) — УС, szi) + > YA (sas) 
(7.5) 
Җир, =2( 59) szo = 2050) 4A; ALA, 为 待 求 系数 ;CCzo ,zi ) 为 两 点 (wy ) 之 间 协 方 
差 平均 值 ; 类 似 地 ,Cz; ‚2; ) 和 C(z; +z). 
在 无 偏 条 件 下 ,使 估计 方差 达到 极 小 的 诸 权重 系数 1, 是 个 求 条 件 极 值 的 问 
题 , 即 把 最 优 估 值 问题 理解 为 在 无 偏 条 件 约束 ( УЛА, = 1) 下 求 估计 方差 让 为 最 
小 的 估 值 问题 。 
用 拉 格 朗 日 乘 数 法 求 约束 极 值 问 题 得 到 普通 Kriging 方程 组 : 


E +p = CG;zj) 
j 


я (i = 1,2) (7. 6) 
УА; =1 
2 

或 
DAY nz) +u = Y(z,,z;) 
й (i = 1,2) (7.7) 
22,71 


J 
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式 中 ,y 为 变异 函数 ,由 理论 假设 或 样本 数据 求 出 ( 见 7. 3.2 节 );4; 和 为 待 求 系 
数 , 由 上 式 解 出 。 将 A ЛК АШ E z Ск) то? 两 式 , 即 可 得 到 普通 Kriging 在 各 点 插 
值 和 及 其 方差 。 

Kriging 的 优点 是 其 具有 坚实 的 统计 理论 基础 ,能 够 对 误差 做 出 逐 点 的 理论 估 
计 。 缺 点 是 复杂 、 计 算 量 大 、 变 异 函 数 需要 根据 经 验 人 为 选 定 。Kriging 派生 出 许 
多 变种 ,如 Co-Kriging, Universal Kriging 等 。 

2. RF Hat 

Kriging Fir HAYE F RROJ 

yh) = — Cels) — z(s, +h) J° (7.8) 
式 中 ,n(h) 为 研究 区 内 空间 间隔 为 RECs Cs, 53 20s, th SERIA s, 和 点 
sp 十 h 的 属性 值 。 变 异 隐 数 一 般 用 变异 曲线 来 表示 , 它 是 具有 一 定 滞后 距离 h 的 
ҖЕ Fe PRAY (4) 与 h 的 对 应 图 (图 7.5)。 图 中 的 С, 称 为 块 金 效 应 , 它 表示 距离 h 
很 小 时 两 点 间 属 性 变量 值 的 变化 , 即 样 点 值 本 身 的 不 确定 性 ;a 称 为 变 程 , 当 AEa 
时 ,任意 两 点 间 的 属性 变量 值 有 相关 性 ,这 个 
相关 性 随 h 的 变 大 而 减 小 , 当 h 二 a 时 就 不 再 
有 相关 性 ,a 的 大 小 反映 了 研究 对 象 中 某 一 区 
域 化 属性 变量 变化 程度 ; 另 一 方面 ,a 反映 了 
影响 范围 。C 称 为 基 台 值 ,C 十 Cu 称 为 总 基 台 
值 , 它 反映 了 某 区 域 化 属性 变量 在 空间 内 的 
图 7.5 变异 函数 曲线 示意 图 变异 强度 , 它 是 达到 最 大 滞后 距离 后 变异 函 
数 的 极限 值 。 





3. 案例 


(1) 案例 所 用 数据 与 上 节 反 距离 加 权 方 法 案例 一 致 。 

(2) 单 击 ArcInfo— Spatial Analyst 下 拉 箭 头 ( 图 7.6), 单 击 Surface Analy- 
sis, 在 弹出 的 下 一 级 菜单 中 单 击 Kriging 命令 ,打开 Kriging 对 话 框 。 

(3) Mifi Input points 下 拉 箭 头 ,选择 参加 内 插 计算 的 点 数据 集 villagere- 
sult. shp, 

(4) 单 击 Z value field 下 拉 箭 头 ,选择 参加 内 插 计算 的 字段 名 称 NET_IN- 
COME. 

(5) 选择 所 需要 的 克 里 格 方法 ,这 里 选择 Ordinary, 

(6) 单 击 Semivariogram model 下 拉 箭 头 , 选 择 合适 的 变异 函数 模型 (Spherical) 。 

(7) 单 击 Search radius type 下 拉 箭 头 , 选 择 搜索 半径 类 型 Variable, 
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PA 7.6 Kriging 对 话 框 


(8) 在 Output cell size Ж KE PRAM i ЖК ЖЛ. 

(9) Create variance of prediction 可 设置 是 否 需 要 生成 预测 的 标准 误差 。 
(10) 在 Output raster 文本 框 输入 结果 文件 名 称 。 

(11) 单 击 OK 按钮 ,完成 操作 ,结果 如 图 7. 7 所 示 。 


图 例 
13829.22-1098.18 
rz 1098.19-1382.97 
ma 1382.98-1794.33 
mm 1794.34-2261.07 
wa 2261.08-2846.47 





图 7.7 Kriging 插值 结果 


7.4 Co-Kriging 方法 
1. 原理 


Kriging 用 单 变 量 z 在 抽样 点 的 值 来 预测 未 抽样 点 的 值 。 当 待 预测 值 > 与 某 
些 其 他 变量 r 相关 , 则 这 些 次 变量 (secondary variables) 包 含 主 变量 z 的 信息 ,可 
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以 帮助 对 z 的 预测 ,这 就 是 Co-Kriging 方法 : 
Zo = Az + dD bia; (7.9) 
i=) j=l 


式 中 ,为 某 未 抽样 点 的 估计 值 ;z; 为 主 变量 在 空间 点 i 0918; 为 次 变量 在 空间 
点 j 的 值 ;nm 分 别 为 变量 x 和 xz OPRAH A Ab, 是 待 估 权 重 。 此 式 方差 为 


1? == Е(2, — zo) 


ET з SAAC, =) + КР S bac Gi ij) + Cl xo + zo ) 
кў зет, 


+ 25 —RX n.) T УС Zo) = Уса, szo) 
(7. 10) 
跟 普通 Kriging 一 样 ,在 二 阶 平稳 条 件 下 ,为 使 预测 值 无 偏 ,要 求 


Sui mya = 0 (7.11) 
j=l 


iml 


ЛИЕВ H REER RAUA URL, HE 最 小 ,并 满足 以 上 无 偏 条 件 , 得 到 


DAC leiz) + D bC ainz) Ка = CGoz) (j = lyen) 


DIAC Crisa) + DBC Caines) + ш = C(zosz;) ()=1,+›т) 
| | (7.12) 


УЬ, = 0 


. 


ЖЕШ ЕК BRE De FEA BE (A: КЬ, ,将 他 们 代入 以 上 zo Ж? 两 式 , 即 可 得 
到 Co-Kriging 在 各 点 插值 及 其 方差 。 


2. 案例 


案例 所 用 数据 与 反 距 离 加 权 方 法 案例 一 致 。 目 的 是 用 行政 村 样本 的 净 收 
人 (z;) 和 距 公 路 远近 (x;) 来 预测 非 样 本 行政 村 净 收 入 (zo)。 用 ArcGIS 中 的 Create 
Subsets 对 话 框 将 数据 集 分 割 为 测试 数据 集 和 训练 数据 集 (图 7.8、 图 7.9). 
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S es) < — 
datasets. Create a model using the training dataset iugo 一 一 -- 
and by esing the validation tool yoo can evaluate how 
good the predictions are relative to the knovn values 


. . 
ih u 4 | Testi 
Training -一 一 一 سل‎ | esting 


Output geodatabare 


m \spatial analysisiTemp\willageresult_sets. mdb si 


Subsets палет 
Training m llageresult training 
Testing ки ageresolt test 


in tbe test. dataset. 


m | 
PA 7.8 生成 数据 子 集 (Create Subsets) 图 7.9 设置 训练 和 测试 集 大 小 


(1) fE Arc Map 中 右 击 工具 栏 ,启动 地 理 统计 模块 Geostatistical Analyst, 

(2) 单 击 Geostatistical Analyst 模块 的 下 拉 箭 头 点 击 Geostatistical Wizard 命令 。 

(3) 在 弹出 的 对 话 框 中 ,在 Dataset] 选择 训练 数据 villageresult training ЖЖ 
属性 МЕТ ІМСОМЕС 7. 10) ,在 Validation 中 选择 卡 中 选择 检验 数据 villagere- 
sult test 及 其 属性 NET_INCOME, 单 击 Dataset2 ,选择 训练 数据 villageresult_ 
training 及 其 属性 ROADBUFFER, ,选择 CoKriging 内 插 方 法 ,最 后 点 击 Next f 
钮 (图 7.11)。 





[Dataset 1 | dataset 2 | Dataset 3 | Datasets | valid * | * | 
wou dae: [D> vildageresult_treining 7] a| 
Attribute: eto тт 
а Reet a HEIDE 
— و‎ 


I^ Use NODATA value: | 3 


About Cakriging 

Rt o d ty bic eg 
model. Cokngng uses mufople lat 

end autocorrelation. C 


decision-making. 
assumes the data come from a stationary stochastic process, — — —— 


[De] eee |] == | 
图 7.10 数据 输入 和 方法 选择 的 对 话 框 
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(Dataset 1 | Dataset 2 | Dataset 3 | Dataset + | valid * | >| Dataset 1 (Dataset 2 | Dataset | Dataset 4 | vasa «1». 
out data: [0 villageresalttraining 7] @| motd: RD villegeresult_training c] 08) 


Attrbute: fer INCOME "| Attribute: | 
Х field: [теге -] X field: Ба: 3 | 
Y field: [эсе -] Y field: Е: " | 


| 
[^ Use NODATA value: | [^ Use NODATA value: | | 





图 7.11 ШЕ ESER UTE ER FEE FOU EE 


(4) 在 提取 变异 函数 前 需 去 掉 样本 中 的 趋势 。 在 DataSet] 里 的 Transforma- 
tion 里 选择 Box-Cox 变换 方式 ,参数 设置 为 “一 1”, 将 Order of trend removal 设置 
为 Second, 点 击 Next 按钮 。 在 Detrending 对 话 框 中 , 单 击 Next 按钮 (图 7.12. 
Р 7. 13). 





Р 7.12 Dataset] 剔除 趋势 示意 图 


(5) 在 弹出 的 Semivariogram/Covariance Modeling 对 话 框 中 (图 7. 14) , 先 按 
照 默认 参数 进行 操作 ,在 得 到 对 模型 精度 评定 的 结果 后 ,发 现 结果 误差 太 大 , 返 
回 更 改 该 对 话 框 中 的 参数 。 经 比较 发 现 ,将 分 组 数 设 为 10 得 到 的 结果 较 好 。 需 
注意 的 是 ,在 设置 分 组 数 时 ,尽量 保证 每 组 中 的 样 点 对 数 大 于 10, 然 后 点 击 Next 
fL. 
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FF Modek 1 |Г Model 2 | Г Model: 3 | 
Малог range as 


T^ Aneotropy 


Deseo RE Pid аша 0) 
Ru. 117414163 


iar Гб» а? 





图 7.14 半 变 异 / 协 方差 建 模 参数 设置 对 话 框 (semivariograrm) 


(6) 在 弹出 的 Cross Validation 对 话 框 中 (图 7. 15) ,显示 了 对 模型 的 精度 评 
价 , 在 对 不 同 参数 得 到 模型 的 比较 中 ,可 参考 Prediction Error 中 的 几 个 指标 。 符 
合 以 下 标准 的 模型 是 最 优 的 :标准 平均 值 (mean standardized) 最 接近 于 0, 均 方 根 
预测 误差 (root-mean-square) 最 小 ,平均 标准 误差 (average mean error) 最 接近 于 
均 方 根 预 测 误 差 ( root-mean-square) , FR f HY FT FR Hi J ê 2É (root-mean-square 
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standardized) 最 接近 于 1。 最 后 单 击 Next 按钮 


Predicted, 


3.90 
Measured, 1073 | 





图 7.15 交叉 验证 结果 


(7) 在 弹出 的 Validation 对 话 框 中 ,点 击 Finish 按钮 。 协 同 克 里 格 法 内 插 结 
ROS 7. 16), 
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图 7.16 协同 克 里 格 法 内 插 结果 与 区 域 背景 盔 加 显示 示意 图 
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7.5 核心 估计 函数 法 
1. 原理 


核心 估计 函数 法 是 一 种 从 一 些 随机 采样 点 重建 概率 密度 函数 的 方法 ,在 没有 
任何 先 验 密 度假 设 情 况 下 ,只 要 给 定 一 个 合适 带宽 ,就 能 得 出 一 个 质量 高 的 概率 密 
度 估计 值 CGatrell,1996)。 核 心 估 计 最 初 目的 是 根据 观测 值 获得 单 变量 或 多 变量 
概率 密度 的 平滑 估计 值 (Silverman,1984)。 在 已 知 一 定 区 域内 的 属性 变量 数据 总 
” 数 前 提 下 ,利用 核心 估计 模拟 出 属性 变量 数据 的 详细 分 布 ,其 具体 思路 和 步 又 为 ; 
O@ 将 研究 区 域 划 分 成 一 定 分 辩 率 的 格 网 ; 句 将 区 域内 的 属性 变量 总 数 数据 分 别 换 
算 成 各 自 的 分 布 密度 值 ; 四 每 个 区 域 放 置 一 个 中 心 点 ,并 把 属性 变量 密度 数据 连 到 
中 心 点 上 ;使 用 空间 连续 数 核心 估计 函数 把 中 心 点 上 的 属性 变量 密度 数据 插 成 
格 网 表面 。 
Arn 4H s 代表 空间 里 的 任意 点 ,5 ness PRK n 个 点 的 属性 变量 观测 值 ， 

ABZ s 上 的 强度 A.(s) 定 义 为 

iG = > z | =] (7.13) 
式 中 ,kO 〇 是 一 个 双 变 量 的 概率 密度 函数 ,被 称 为 核心 ;参数 * 二 0, 称 为 带宽 , 它 是 
用 来 定义 平滑 量 的 大 小 ,实际 上 就 是 以 ;为 中 心 的 一 个 圆 的 一 个 半径 ,每 个 点 
5(1 二 i<n) 都 对 4.(s) 有 贡献 。 给 定 一 个 带宽 ,比较 典型 的 kernel 函数 为 

3 £8 2 
= КУ (7. 14) 
0, 其 他 

这 里 天 是 距离 。 把 这 个 函数 代入 到 ).(s) 估 计 值 的 表达 式 中 ,得 

ACs) = DER (7. 15) 
UPA; 是 * GARWA s; C100 = [8] Ж. XT ALGO. 估计 值 有 和 贡献 的 观 
测 点 的 范围 就 是 以 点 为 中 心 , 以 z 为 半径 的 圆 。 不 管 选 什么 样 的 核心 函数 ,增加 
带宽 会 "拉平 "* 周围 的 区 域 , 对 于 较 大 的 带宽 ,4.(s) 估计 值 会 呈现 平坦 的 趋势 ,本 
地 的 特征 会 模糊 。 


2. 案例 


(1) 把 和 顺 县 分 成 2250 个 lkmX1km 的 网 格 , 利 用 Mean Point 工具 得 到 每 
个 格 网 的 中 心 点 。 接 着 把 326 个 村 的 人 口 密度 作为 已 知 数据 , 即 点 数 为 326, 用 核 
心 估计 拟 合 2250 个 格 网 上 的 人 口 密度 ,最 后 对 落 在 同一 流域 分 区 上 的 格 网 数据 进 
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行 汇总 求 和 ,得 到 每 个 流域 分 区 上 的 人 口 总 数 ,进而 得 到 每 个 流域 分 区 上 的 人 口 密 
E 7.17), 
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7.17 AME IkmX 1km 格 网 上 的 人 口 分 布 (核心 估计 法 ) 


(2) 计算 过 程 中 最 为 关键 的 就 是 带宽 т 的 取 值 ,由 于 观测 点 较 多 ,所 以 e EIC 
取 较 小 的 值 。 与 距离 衰减 模型 法 中 的 做 法 相似 ,将 格 网 计算 值 汇总 到 村 尺度 ,与 各 
村 的 数据 比较 ,用 最 小 二 乘法 对 т 的 取 值 进行 优化 。 计 算 发 现 当 t=1.5 时 , 格 网 
人 口 数 分 布 比较 接近 实际 。 模 拟 结果 发 现 ,不 仅 村 域内 而 且 村 与 村 之 间 都 已 经 存 
在 着 值 的 过 渡 。 


7.6 “3G 方法 
1. 原理 


“3G” 即 “GIS&GP( 遗 传 规划 算法 )&GA( 遗 传 算法 )” 方 法 ( 座 一 兰 等 ,2007)， 
是 一 种 利用 智能 算法 建立 插值 模型 来 进行 空间 数据 插值 的 方法 ,最 初 提出 来 是 为 
了 解决 人 口 数据 空间 插值 问题 。 人 口 曲 面 建 模 分 为 3 个 基本 步骤 :中 建立 一 个 针 
对 研究 区 域 的 规则 格 网 体系 ,在 此 基础 上 生成 权重 因子 分 布 表面 ;@ 利 用 辅助 数据 
资料 来 调整 第 一 步 中 得 到 的 基本 权重 ;@@ 依 照 前 面 步骤 建立 起 来 的 权重 比例 把 研 
究 区 域 总 人 口 分 配 到 相应 的 格 网 中 (Yue et al. ,2003)。 按 照 这 个 思路 ,利用 “3G” 
方法 进行 人 口 空 间 插值 的 过 程 分 为 3 个 部 分 :GIS 预 处 理 数 据 、 进 化 算法 建立 人 口 
分 布 模型 和 依照 模型 分 配 人 口 普 查 数据 。 人 口 分 布 模型 的 建立 是 成 功 进行 人 口 插 
值 最 为 重要 的 一 步 ,需要 首先 找到 最 符合 实测 数据 的 模型 函数 形式 ,然后 寻找 满足 
需求 的 所 有 常量 和 参数 。“3G” 方 法 最 大 特点 是 能 在 GIS 多 维 数据 中 自动 便利 地 
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找到 模型 结构 和 优化 答案 ,无 需 使 用 复杂 计算 。 

在 人 口 数 据 插值 过 程 中 ,“3G” 方 法 首先 利用 GIS 获取 人 口 分 布 模型 所 需 的 
基本 数据 ,然后 利用 GP 来 获取 人 口 分 布 和 影响 因子 变量 之 间 的 关系 式 。GP 是 
一 种 不 依赖 于 具体 问题 领域 特定 知识 的 机 器 自动 学 习 的 软 方法 ,其 建立 人 口 分 
布 关系 式 的 基本 思想 是 随机 产生 一 个 适合 于 给 定 问题 环境 的 初始 群体 ,群体 里 
的 每 个 个 体 是 一 个 备 选 的 简单 关系 式 , 依 据 自 然 选择 原则 ,用 遗传 .交叉 ,变异 等 
遗传 算 子 对 初始 群体 进行 相关 处 理 , 得 到 适应 度 最 高 的 个 体 组 成 下 一 代 群 体 ,多 
次 选 代 后 使 问题 逐渐 通 近 最 优 解 ( 卢 少 华 ,2006)。 与 其 他 建 模 方法 相 比 ,GP Ж 
化 模型 是 根据 输入 的 因 变 量 和 自 变量 数据 自动 确定 的 ,不 需 事 先 确定 或 限制 最 
终 答案 的 结构 或 大 小 。 而 且 在 计算 过 程 中 输入 .中 间 结 果 和 输出 都 是 问题 的 自 
然 描 述 ,无 需 或 不 需 对 输入 数据 预 处 理 和 对 输出 结果 后 处 理 。 最 后 产生 结果 也 
具有 层次 性 ,便于 理解 。 由 于 GP 搜索 空间 过 大 ,不 能 对 计算 机 程序 中 某 单个 结 
点 进行 优化 ,所 以 模型 结构 确定 后 ,模型 参数 优化 成 为 提高 人 口 分 布 模型 精度 的 
关键 。 应 用 传统 的 优化 搜索 方法 ,如 最 小 二 乘法 .EM 算法 等 ,进行 人 口 分 布 模 
型 参数 优化 计算 ,很 容易 陷 人 局 部 最 优 解 。 而 GA 作为 一 种 仿生 算法 ,通过 全 面 
模拟 自然 选择 和 遗传 规律 ,形成 一 种 “生成 十 检验 ”特征 的 搜索 寻 优 机 制 ,具有 全 
局 最 优 解 \ 乱 能 式 搜索 ,渐进 式 优化 简单 通用 性 强 和 优化 精度 高 的 特点 ,恰恰 是 
解决 此 问题 的 有 效 途 径 ( 王 家 粮 、 邓 红 艳 ,2005)。 通 过 对 人 口 数据 插值 问题 的 
具体 分 析 , 结 合 遗 传 算 法 的 基本 原理 ,确定 了 遗传 算法 对 模型 的 优化 进程 :中 通 
过 分 析 模 型 最 后 需要 达到 的 各 项 要 求 ,建立 适应 度 评价 函数 ,以 便于 进行 结果 的 
评价 选择 ;@ 采 用 实数 编码 方式 ,选择 合适 的 群体 大 小 ,随机 生成 初始 群体 ;@ 计 
算 群 体 中 每 个 个 体 所 对 应 的 评价 函数 值 ,根据 其 值 大 小 ,通过 优胜 劣 汰 ,淘汰 适 
应 度 差 的 个 体 ,对 幸存 的 个 体 根据 其 适应 度 的 好 坏 , 按 概率 选择 ,进行 复制 .交叉 
和 突变 的 操作 ,产生 子 代 ;@@ 对 子 代 群 体重 复 步骤 @ 的 操作 ,进行 新 一 轮 遗 传 进 
化 过 程 ,直到 找到 最 优 解 。 通 过 GA 优化 后 的 关系 式 才 是 要 获取 的 最 终 人 口 插 
值 模型 ,通过 这 个 模型 可 以 得 到 每 个 格 网 里 的 人 口 分 布 情况 ,建立 人 口 分 布 曲 
面 。 


2. ЖА 


(1) 案例 目标 是 利用 “3G” 方 法 ,将 和 顺 县 2001 年 村 普查 数据 分 配 到 各 个 格 网 
中 去 。 案 例 所 用 的 是 一 个 由 75 X 30 个 (2250 个 数据 点 )1km? 大 小 格 网 组 成 的 格 
网 层 ,同时 又 选取 了 以 下 几 个 影响 人 口 分 布 的 因子 图 层 :DEM 图 .河流 分 布 图 . 道 
路 分 布 图 ,土地 利用 类 型 分 布 图 ,行政 村 点 图 。 

(2) GIS 提供 人 口 分 布 模型 所 需 的 基本 数据 。 案 例 挑选 的 人 口 分 布 影响 因子 
主要 涉及 自然 和 社会 经 济 等 方面 :坡度 ,以 坡度 类 型 宜 居 程度 为 权重 ;加 河流 , 权 
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重 取 值 考虑 格 网 到 最 近 河 流 的 距离 ;@ 交 通 设施 ,权重 是 格 网 分 别 到 最 近 铁 路 和 主 
要 道路 的 距离 :四 土地 蓝 被 ,直接 将 不 同 土地 覆 被 类 型 上 的 人 口 密度 作为 权重 ; 
加 邻近 村 镇 ,权重 受 邻近 村 庄 、 县 城 的 人 口 及 其 和 格 网 之 间 的 距离 影响 。 相 应 的 影 
响 因子 图 层 被 集中 输入 到 ArcInfo 和 GeoDa 中 ,然后 利用 ArcInfo 中 near 和 slope 
工具 .GeoDa 中 空间 权重 计算 工具 及 编写 部 分 VBA 代码 来 获取 各 个 因子 的 原始 
属性 值 ,对 这 些 值 进行 归 一 化 处 理 之 后 将 其 作为 变量 样本 值 输入 到 GP 中 去 。 

(3) GP 软件 采用 英国 Salford 大 学 开发 的 GPC+ + 0.40 工具 包 。 所 有 GP 
参数 如 表 7. 1 所 示 。 其 中 “最 大 生成 深度 "和 “最 大 交叉 深度 ”分 别 限 定 了 初始 个 体 
和 交叉 后 生成 个 体 的 规模 大 小 ,这 样 能 避免 GP 生成 结构 复杂 庞大 的 个 体 , 便 于 最 
终 得 到 进化 模型 的 解释 。 


表 7.1 遗传 规划 计算 参数 


项 目 = «X 
群体 规模 500 
遗传 代数 2000 
最 大 生成 深度 40 
最 大 交叉 深度 17 
复制 概率 0. 60 
交叉 概率 0.98 
突变 概率 0. 05 
终止 条 件 最 大 代数 :2000 或 R* —0. 9500 
GP 适应 度 函数 定义 为 


N — 
2, (PG) - PC G) — P) 


е - P yr G)— Py: 


式 中 ,NN 为 普查 单元 个 数 ， P Gf P0j) 分 别 为 普查 单元 j 的 估算 和 实际 人 口 值 ， 
而 已 和 P 则 分 别 为 研究 区 域 所 有 普查 单元 的 人 口 估算 和 实际 人 口 平均 值 。 P'G) 
通过 以 下 公式 可 以 获得 





F= (7. 16) 


P’(j) = > popu; Jj) (7.17) 


式 中 ,popu(i,j) 为 普查 单元 j 内 格 网 i 的 人 口 估算 值 ,n 为 普查 单元 所 包含 的 格 网 
数 。 为 了 获取 最 能 反映 真实 情况 的 模型 结构 ,独立 运行 GP 程序 100 次 。 最 后 这 
些 模型 中 适应 度 最 高 的 被 选择 作为 和 顺 县 2001 年 人 口 插值 模型 结构 
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BENED NEN. es 
In| road(i) | 
205. 5X lan_cov(i) X slopeCi) 
ехр(0. 01 X nei_vil(i)) 

式 中 ,slopeGi) 为 坡度 的 归 一 化 值 ;lan_cov(i) 为 土地 覆 被 人 口 密度 归 一 化 值 road(z) 
为 格 网 到 最 近 道 路 的 距离 归 一 化 值 ;nei_vilGi) 为 邻近 村 镇 影响 归 一 化 值 ,在 研究 
中 任意 格 网 所 受到 的 邻近 村 镇 影响 等 于 所 有 邻近 村 (包括 县 城 ) 到 格 网 的 距离 与 该 
村 人 口 总 数 的 比值 之 和 。 

(4) СА 程序 是 利用 Matlab 自行 编码 实现 的 。 根 据 上 式 ,研究 中 GA 染色 体 
长 度 为 4 字 节 。 在 GA 中 个 体 适 应 度 决定 了 其 存活 和 繁殖 下 一 代 的 几率 , 因而 确 
定 合 适 的 适应 度 函 数 在 整个 进化 过 程 中 显得 尤为 重要 。 研 究 中 GA 采用 下 式 作 为 
适应 度 函数 ,其 中 参数 g 取 10 77^, 

1 


F_GA = 一 h (7. 19) 

Sx CPG) — PG)” 

— — 
YDP- P(j)) 
式 中 ,NN 为 普查 单元 个 数 ;S HERUR: Р, Су) ATH k 估算 出 来 的 普查 单 
元 i 人 口 数 ;P(j) 为 普查 单元 7 实际 人 口 数 ;gq 为 位 于 (0,1) 的 常数 。 适 应 度 函数 
确定 之 后 ,GA 便 可 以 根据 适应 度 来 选择 优良 个 体 进 行 复制 和 形成 配对 池 。 案 例 
采用 比例 选择 模式 来 挑选 复制 个 体 。 而 且 为 了 避免 计算 中 适应 度 比 例 取 整 时 可 能 
会 造成 新 旧 种 群 个 体 数目 不 一 致 问题 ,GA 还 对 复制 前 后 所 有 个 体 数目 差异 进行 
排序 ,依次 对 损失 较 大 的 个 体 加 1 直到 差异 为 0。GA 的 个 体 交 叉 是 通过 在 每 个 待 
交叉 个 体 上 选取 两 个 交叉 点 , 互 换 两 个 竺 交叉 个 体 的 交叉 点 之 间 部 分 来 实现 的 。 
与 简单 遗传 算法 设置 固定 交叉 概率 的 做 法 不 同 ,案例 中 GA 的 交叉 概率 是 一 个 位 
于 (0. 8,1) 的 随机 值 。 由 于 所 有 个 体 都 表现 为 一 个 n 维 向 量 , 因 此 在 保证 突变 后 的 
个 体 仍 在 搜索 范围 内 的 前 提 下 ,GA 采取 给 所 选 个 体 加 噪声 的 方法 来 实行 个 体 突 
变 。 突 变 算 子 采用 多 级 变异 ,突变 概率 也 是 一 个 间 于 (0,0. 1) 的 不 确定 值 。 在 СА 
中 ,种 群 规模 对 于 提高 算法 效率 尤为 关键 。 如 果 种 群 规模 太 大 ,运算 速度 便 会 放 
1, WAH GA 群体 规模 为 150, 和 迭代 1200 代 。 经 过 GA 优化 ,案例 所 用 最 终 的 
和 顺 县 2001 年 人 口 插值 模型 为 


popu(i)=22—3. 24 X (7. 18) 


In( road(:) ) 
172. 5X lan_cov(i) X slope(i) 
ехр(0. 002 X nei_vil(i)) 
(5) 根据 获取 到 的 最 终 人 口 插值 模型 ,得 到 2001 年 和 顺 县 人 口 分 布 曲面 
(图 7.18) 。 


populi) —28— 2. 86 X (7. 20) 
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格 数据 (lattice data) 又 称 面 状 数据 (areal data) ,是 指 以 空间 格 状 单元 存储 的 
属性 数据 集 ,如 由 存储 于 众多 规则 正方 形 ( 像 元 ) 所 组 成 的 遥感 图 像 和 存储 于 一 组 
不 规则 多 边 形 行政 单元 的 社会 经 济 统计 数据 。 格 数据 的 空间 关系 通过 多 边 形 之 间 
的 连接 矩阵 来 实现 和 表达 。 


8.1 空间 自 相 关 


空间 自 相 关 (spatial autocorrelation) 是 指 地 理事 物 分 布 于 不 同 空 间 位 置 的 某 
一 属性 值 之 间 的 统计 相关 性 ,通常 距离 越 近 的 两 值 之 间 相 关 性 越 大 (Cliff and 
Ord,1973,1981)。 空 间 相关 性 由 空间 自 相 关系 数 度量 ,检验 空间 事物 某 属性 是 否 
高 高 相 邻 分 布 或 者 高 低 间 错 分 布 。 空 间 正 相关 是 指 空间 上 分 布 邻 近 的 事物 其 属性 
具有 相似 的 趋势 和 取 值 ;倘若 空间 上 分 布 的 邻近 事物 ,其 属性 具有 相反 的 趋势 和 取 
值 , 则 这 种 空间 相关 性 表现 为 空间 负 相 关 。 

常用 的 空间 自 相 关 指 标 是 Moran’s I 统计 (Moran,1950),Getis GCGetis and 
Ord,1992) 和 Geary’s C 比值 (Geary,1954) ,以 及 基于 距离 阔 值 范围 的 乘法 测度 。 
局 域 空间 自 相 关 表 现 出 空间 聚集 性 , 即 空 间 热 点 区 域 , 可 用 Local. Moran’ s I 
(Anselin,1995, 在 本 节 介 绍 )、Local Getis’ С (Ога and Getis, 1995, 已 在 引 论 中 介 
41 .Kulldorf Space Scan(Kulldorf，1997, 在 8. 3 PNA). 


8.1.1 全 局 Moran's I it 
1. 原理 


全 局 Moran’ s 1 统计 衡量 相 邻 的 空间 分 布 对 象 属性 取 值 之 间 的 关系 。 取 值 范 
围 为 一 1 一 1, 正 值 表示 该 空间 事物 的 属性 值 分 布 具有 正 相 关 性 , 负 值 表示 该 空间 事 
物 的 属性 值 分 布 具有 负 相 关 性 ,0 值 表示 空间 事物 的 该 属性 值 不 存在 空间 相关 , 即 
空间 随机 分 布 。 计 算 公式 如 下 : 


n>) ر2‎ Wy (y, — PH; —3) 
| — (8.1) 
(3 dw) >G, — 3)? 


式 中 ,n 为 格 数据 数目 ;y, Aly; 分 别 为 空间 对 象 在 第 i 和 第 j 两 点 的 属性 值 ,可 为 
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y 的 平均 值 。 空 间 权 重 和 矩阵 元 素 wy 为 空间 对 象 在 第 i 和 第 7 两 点 之 间 的 连接 关 
系 。 空 间 权 重 和 矩阵 可 以 由 诸如 距离 方式 ,面积 方式 、 可 达 度 方式 等 方法 来 确定 ,其 
一 般 为 对 称 和 矩阵 ,其 中 w: =0. 
全 局 Moran’ s I 统计 方法 首先 假定 研究 对 象 间 没有 任何 空间 相关 性 ,然后 通 
过 Z-score 得 分 检验 来 验证 假设 是 否 成 立 。Z-score 得 分 统计 量 由 Moran’s I 系数 
及 其 期 望 值 和 方差 3 部 分 组 成 
ZED 


(8. 2) 
v var(I) 
在 零 假 设 条 件 下 ( 即 不 存在 空间 相关 性 ) ,Moran’”s I 的 期 望 值 为 
bije (8. 3) 


(n—1) 

由 此 可 见 当 n-—oolf, BYRNE 0, Moran's I 的 方差 有 两 个 假设 :空间 对 象 
属性 取 值 的 正 态 分 布 假设 和 空间 对 象 随机 分 布 假设 。 正 态 分 布 假设 下 , Moran’s I 
的 方差 为 

1 


p A A FS (8.4) 
MO (жены I t ne 


He 5, = Yw S 053) У) Gu ew (У + Уш). 


i=l j=1.)J#i i=] `j=1 


在 随机 分 布 假设 下 ,Moranys I 的 方差 为 
п (п? —3n+3)S, —nS, +39 ]—b,[ (° —n)S, —2nS; 4-65 ] 


—Е([ 2 
(n—1) S * 


Var(D) = 


(8.5) 


AP (п — 19 = (n—1)(n—2)(n— 3) 5b, = 一 一 一。 
(Хо, —9') 

一 般 当 |2Z| > 1. 96 时 ,拒绝 零 假设 , 即 在 95% 的 概率 下 ,存在 着 空间 自 相 关 。 
2. 案例 


(1) 所 用 图 形 数 据 为 山西 省 和 顺 县 1998 一 2005 年 8 年 间 出 生 人 数 大 于 0 的 
315 个 村 的 位 置 分 布 图 village_pt315. shp。 该 文件 属性 表 包 含 如 下 字段 数据 ， 
Code 一 一 各 乡镇 编码 ,ID 一 一 各 乡镇 序号 ,NET_INCOME 一 一 居民 年 均 纯 收 入 。 

(2) 空间 自 相 关 统 计 的 前 提 条 件 是 创建 空间 权重 矩阵。 在 GeoDa 里 创建 权 
重托 阵 的 步骤 如 下 : 
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第 一 步 , 启 动 GeoDa 界面 ,点 击 Tools > Weights 一 Create( 图 8. 1). 打开 权重 
和 矩阵 创建 对 话 框 。 创 建 权 重 和 矩阵 之 前 ,首先 通过 Input File 导 人 文件 ,通过 Output 
File 设置 保存 文件 路 径 ,通过 Select an ID variable for the weights file 选择 权重 文 
件 的 关键 字段 ， 该 字段 默认 状态 为 观测 样本 的 序 号 ,通常 不 建议 为 默认 状态 ,因为 
不 同 格式 文件 的 样本 序号 是 不 同 的 ,所 以 建议 选择 代表 样本 属性 的 关键 字段 ,并 且 
该 字段 的 值 是 不 能 重复 的 。 这 里 选择 代表 行政 村 的 ID。 





B CREATING WEIGHTS 


Data Export > Input File [0 spatial analysis\GeoDa\village pt. w| 


Seve output — fp spatial analysisiGecDe village pt ы 
Select an ID variable for the ре тад - 
wail chic Fila 


CONTIGVITY WEIGHT 


C Book Conti gai did i 3 


С, и 


[pem ] — 


Select distance [Euclidean Distance? 3 
Variable for [&-Centreids> 3 
Variable for [a-centrei às) 3 


C Threshold Di sta 





图 8.1 GeoD 软件 创建 空间 权重 矩阵 参数 选择 示意 图 


第 二 步 , 当 输入 面 文件 时 Contiguity Weight 是 可 选 的 ,这 里 输入 的 是 点 文件 
Distance Weight 为 可 选 , 其 默认 状态 为 点 文件 的 六 和 YY 坐标 ,Select distance 一 项 
显示 为 投影 文件 点 之 间 的 Euclidean Distance 或 者 是 未 投影 文件 点 之 间 的 弧 段 距离 . 

第 三 步 ,Threshold Distance 一 项 可 通过 下 方 的 Cut-off 滑 块 进行 设置 ， —— 
至 右 是 逐渐 增 大 的 。K-Nearest Neighbor 一 项 也 可 以 进行 手动 设置 ， 默认 状态 为 
4。 基 于 Threshold Distance 创建 的 权重 和 矩阵 往往 导致 各 点 之 间 不 均衡 的 连接 结 
构 , 通 常 考虑 使 用 K-Nearest Neighbor 进行 权重 矩阵 的 创建 . 

第 四 步 ,点 击 Create 之 后 便 可 以 创建 权重 矩阵 文件 了 ,如 图 8. 2 所 示 , 点 击 
Done 完成 创建 。 
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图 8.2 权重 矩阵 文件 创建 成 功 


(3) 在 GeoDa 中 ,通过 Moran’ s I 空 间 自 相关 统计 量 及 其 可 视 化 的 散 点 图 进 
行 全 局 空间 自 相关 分 析 。 在 进行 分 析 之 前 ,首先 添加 图 层 文件 和 创建 好 的 权重 矩 
阵 文 件 。 

第 一 步 ,打开 图 层 文 件 village_pt315. shp, 进行 GeoDa 工程 文件 的 设置 
(图 8. 3. F8 8. 4). 





图 8.4 打开 的 图 层 文件 village pt315. shp 


第 二 步 , 点 击 Tools->WeightsOpen 打开 已 创建 的 权重 和 矩阵 文件 (图 8. 5)， 
点 击 OK 即 可 。 
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(V Select from file (gs 


[D: \spatial analysis\GeoDa\village pt315. GWT [ZZ | 


[ Set as default 





图 8.5 打开 创建 好 的 权重 矩阵 文件 


第 三 步 , 通 过 Space > Univariate Moran 打开 Variables Settings 对 话 框 
(图 8. 6) ,选择 变量 NET_INCOME, 点 击 OK 会 出 现 权重 文件 选择 的 对 话 框 , 因 
为 之 前 已 经 打开 了 ,点 击 OK 即 可 (图 8.7) ,得 到 Moran 散 点 图 (图 8. 8) , 


Table Sep Explore БЕН Be ess Options rne nay, 
“ E | 
1 |жж m * = bac Multivariate Moran » a HEY 


a 9 Moran = I with EB Bate 
n I 


в Univariate LISA 
п Multivariate LISA 
" а LISA with EB Rate 
] а ian e 


(Select Variables 
| Ist Variable 








| F Set the variables as default 


图 8.6 单 变量 设置 对 话 框 (Global]) 
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SELECT WEIGHT 


@ Select from currently 
JD: \spatial analysis\GeoDa\village_pt315. GWT 3 


С Select from file ( gs 


\spatial anelysi ziGéeoDsNvillage pt315. GET 


[^ Set as default 





图 8.7 选择 权重 矩阵 文件 


Moran’s 1=0.7741 


W_NET_INCOME 





NET_INCOME 


图 8.8 单 变量 Moran 散 点 图 


第 四 步 ,在 单 变量 Moran 图 上 单 击 右键 (图 8.9), 通 过 Randomization 一 
99 permutation( 或 Other 一 一 自 定义 设置 )， 计算 结果 通过 Z 值 检验 (P 值 为 
0.01 一 0.05)。 这 说 明 居民 年 均 纯 收 入 在 空间 上 具有 空间 正 相 关 性 , 即 在 和 顺 县 ， 
经 济 发 达 乡 镇 跟 经 济 发 达 乡 镇 相 邻 , 较 穷 的 乡镇 和 较 穷 的 乡镇 相 邻 。 
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Moran's 1=0.7741 


W NET INCOME 





NET INCOME 


FA 8.9 单 变 量 全 局 Moran's I 分 布 参考 示意 图 


8.1.2 局 域 Moran's I 统计 ( 亦 称 LISA) 
1. 原理 


全 局 空间 自 相关 假定 空间 是 同 质 的 , 即 研 究 区 域内 的 空间 对 象 的 某 一 属性 值 
只 存在 一 种 整体 趋势 。 但 是 空间 对 象 的 空间 异 质 性 并 不 少见 (Anselin,1995;Getis 
and Ord,1992)。 因 此 需要 发 展 局 域 统计 方法 来 衡量 每 个 空间 对 象 属性 在 “局 部 
(一 般 为 相 邻 ) "的 相关 性 质 。 在 实际 研究 中 ,局 域 Moran7s I 方法 来 发 现 局 域 空间 
是 否 存在 空间 自 相 关 性 。 局 域 Moran's 1 方法 是 将 全 局 Moran’s I 方法 分 解 到 局 
域 空间 上 , 即 针 对 空间 每 一 个 分 布 对 象 , 有 


L= a Dw ly —D (8. 6) 
J 


式 中 ,S у, 的 离散 方差 ;7 WEE: ws, 为 权重 矩阵 。 在 假定 空间 对 象 的 属性 值 
属于 空间 随机 分 布 的 零 假设 下 ,局 域 Moran's I (f£. BI T; 的 期 望 值 与 方差 分 别 为 


EC) — (8.7) 
g =. 125 


; (n—b) < А (2b, — n) 8 
Uoc e a awa — [ECT 
š — LU (n Di —2,. Sau nis [ ( ] 
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So; — 9)‘ 
AP, 如 = 一 一。 由 单个 空间 对 象 取 值 的 局 域 Moran’ s I 值 的 
[ So, =)? | 


Z-score 得 分 统计 检验 ,可 以 得 出 该 空间 对 象 属性 取 值 在 全 局 空间 对 象 属性 取 值 的 
聚集 或 分 散 的 分 布 状态 中 所 起 到 的 作用 , 即 是 否 促进 高 值 与 高 值 的 空间 相 邻 或 者 
高 值 与 低 值 的 空间 相间 分 布 。 


2. RH 


(1) 所 用 图 形 数据 是 与 全 局 Moran’s I 分 析 案 例 (8.1. 1 节 ) 一 致 的 。 

(2) 同样 ,进行 局 域 Moran’ s I 统 计 分 析 的 前 提 条 件 是 创建 空间 权重 矩阵 。 
如 何在 GeoDa 里 创建 空间 权重 矩阵 文件 在 此 不 再 重复 叙述 。 

(3) 在 GeoDa 中 ,通过 局 域 Moran’s I 空间 自 相关 统计 量 及 其 可 视 化 的 散 点 
图 进行 局 域 空间 自 相 关 分 析 。 与 全 局 Moran's I 分 析 相 同 , 在 进行 分 析 之 前 ,首先 
得 添加 图 层 文 件 和 创建 好 的 权重 矩阵 文件 。 接 着 再 进行 局 域 Moran's I 分析 操作 
步骤 如 下 : 

第 一 步 , 通过 Space 一 Univariate LISA 打开 Variables Settings 对 话 框 (图 
8. 10) ,选择 变量 NET_INCOME, 点 击 OK 会 出 现 权重 文件 选择 的 对 话 框 ,因为 之 
前 已 经 打开 了 ,点 击 OK 即 可 。 











. Begress Options Yindew Help 
К + * Univariate Moran lÍ ^ 
E mi*ixml — as | Multivariate Woran n a zm 

= Moran's I with EB Bate 








п Multi vari ate LISA 
n LISA with EB Rate 





图 8.10 单 变量 设置 对 话 框 
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第 二 步 ,点 击 OK 之 后 出 现 如 图 8. 11 所 示 LISA windows 对 话 框 ,根据 需要 勾 选 。 


What windows to open? 


] Tha нса B. 


М The Cluster Maj 
М The Box Plot 


М The Woran Scatter Р 





FA 8.11 LISA windows 对 话 框 


第 三 步 ,根据 所 选 ,在 单 变量 LISA Moran’s 1 图 上 出 现 了 相应 的 结果 图 。 由 
于 案例 中 选择 了 所 有 图 ,于 是 出 来 4 张 图 (图 8.12)。 在 UniLISA Cluster Map 
中 , 它 用 四 种 不 同 的 灰 度 来 代表 四 种 不 同 的 空间 自 相 关 关 系 类 别 ; 浅 黑 代表 高 -高 ， 
深 黑 代表 低 - 低 , 深 灰 代表 高 - 低 , 浅 灰 代表 低 - 高 。 这 四 种 种 类 分 别 对 应 着 Moran 
散 点 图 上 的 四 个 直角 区 域 。 当 在 UniLISA Cluster Map 点 击 带 有 某 种 颜色 的 区 域 
时 , 散 点 图 上 其 相对 应 着 的 点 也 会 随 之 闪 亮 。 


bie Siew Bát [es Table We dee dee [иразз tims [мк l> 
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图 8.12 单 变量 LISA 分 析 示 意图 
l. UniLISA Significance Map;2. UniLISA Cluster Map;3. UniLISA Box Plot;4. UniLISA Moran 
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第 四 步 ,在 单 变量 LISA Moran’ s 1 图 上 单 击 右键 ,得 到 图 8. 13, 通 过 Ran- 
domization—499 Permutations (或 Other 自 定 义 设 置 ), 得 到 如 MultiLISA 
Moran’s I 分 布 参考 示意 图 (Randomization) 所 示 ,计算 结果 通过 Z 值 检 验 (P {fi WY 
0.0020. 05). 。 这 说 明了 在 和 顺 县 局 部 区 域 里 乡村 居民 年 均 纯 收 入 也 存在 着 空间 
自 相 关 性 。 





Moran's 1=0.7741 


W_NET_INCOME 





图 8.13 单 变量 局 部 Moran 分 布 参 考 示 意图 (Randomization) 
8.2 可 变 面 元 问题 


在 地 理学 研究 中 ,研究 区 域 可 以 按照 多 种 不 同 的 方式 被 划分 成 互 不 重合 的 面 域 
单元 来 进行 空间 分 析 。 但 是 由 于 面 域 单元 划分 方式 可 变 , 基 于 面 域 单元 的 分 析 结 果 
往往 会 受到 面 域 单元 划分 方式 及 面 域 单元 大 小 的 影响 。Openshaw(1983) 系 统 研究 
了 这 些 地 理学 中 的 尺度 问题 之 后 ,提出 了 著名 的 “可 变 面 域 单 元 问题 "(modifiable 
areal unit problem, MAUP) 。 这 一 问题 对 格 数据 分 析 中 空间 单元 的 组 织 与 相关 性 表 
达 具 有 重要 的 借鉴 意义 , 即 空间 上 分 布 对 象 的 空间 分 析 及 其 空间 关联 性 的 表达 能 否 
反映 格 数据 本 质 的 地 理学 意义 ? А 20 世纪 80 年 代 以 来 ,MAUP 成 为 地 理 信息 科学 
中 对 尺度 研究 的 代表 性 表述 ,其 核心 强调 尺度 在 地 理学 研究 中 的 重要 地 位 。 

尺度 转换 是 利用 某 一 尺度 上 所 获得 的 信息 和 知识 来 推测 其 他 尺度 上 现象 的 技 
术 。 尺 度 转换 过 程 中 ,包含 3 个 层次 的 内 容 :@D 尺 度 的 放大 或 缩小 ;四 系统 要 素 和 
结构 随 尺度 变化 的 重新 组 合 或 显现 ; 回 根据 某 一 尺度 上 的 信息 (要 素 、 结 构 、 特 征 
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等 ) ,按照 一 定 的 规律 或 方法 ,推测 、 研 究 其 他 尺度 上 的 问题 。 因 此 根据 转换 前 后 尺 
度 范围 的 大 小 ,尺度 转换 可 以 分 为 向 上 尺度 转换 (upscaling, 也 可 以 称 为 尺度 扩展 ) 
和 向 下 尺度 转换 (downscaling, 也 可 以 称 为 尺度 收缩 )。 所 谓 向 上 尺度 转换 就 是 将 
精微 尺度 上 的 观察 .试验 以 及 模拟 结果 外 推 到 较 大 尺度 的 过 程 , 它 是 研究 成 果 的 
“ 粗 粒 化 "。 与 此 相反 ,向 下 尺度 转换 是 将 较 大 尺度 上 的 观测 、 模 拟 结果 转换 至 精微 
尺度 上 的 过 程 。 尺 度 转 换 有 许多 不 同 的 方法 ,如 回归 分 析 法 、 半 变化 异 函 数 法 、 自 
相关 分 析 法 .分形 法 ,小 波 分 析 法 、 格 点 生成 法 ,空间 抽样 等 ， 


8.2.1 面 域 加 权 方 法 
1. 原理 


面 域 加 权 方 法 是 以 面积 作为 权重 向 上 尺度 转换 的 方法 ,其 前 提 是 假定 每 个 子 区 
域 空间 中 的 属性 数据 是 均匀 分 布 的 ,这 当然 不 符合 实际 情况 ,但 是 当 没 有 附加 信息 时 
也 是 一 种 有 用 的 方法 。 该 方法 的 主要 思路 是 :首先 在 源 区 ( 子 区 域 ) 图 层 革 加 尺度 上 
推 目 标 区 图 层 ,然后 确定 每 个 源 区 落 在 某 一 目标 区 的 面积 比例 ,根据 面积 比例 分 配属 
性 值 
У: = ул, A (8. 8) 
r=] r 
式 中 ,y: 为 第 = 目标 区 的 属性 值 ;n 为 与 第 个 目标 区 地 域 相交 的 源 区 个 数 ; у, 为 
第 r 个 源 区 的 属性 值 数据 ;r 二 1,…,n;A., 为 第 r 个 源 区 与 第 = 个 目标 区 地 域 交叉 
区 域 面 积 ;A, 为 第 -~ 个 源 区 面积 。 : 


2. 案例 


(1) 所 用 图 形 数据 是 山西 和 顺 县 村 域 分 布 图 和 汇 水 区 域 分 布 图 ,目标 是 在 326 
个 村 1998 一 2001 年 人 口 数 均值 的 基础 上 获取 9 个 汇 水 区 域内 的 人 口 数据 
(图 8. 14)。 由 于 和 顺 县 行政 村 间 不 存在 村 界 , 所 以 采用 点 生成 泰 森 多 边 形 的 方法 
产生 各 个 行政 村 的 范围 ,接着 将 村 的 人 口 密度 与 该 村 的 泰 森 多 边 形 相关 联 。 

(2) 利用 ArcInfo ArcToolbox— Analysis Tools—Overlay— Intersect 工具 
KERRE HES COKER РЕ А. EA 2 30241 UE I. Y — 1 3 0 РА Е. 
由 图 8. 14 可 见 , 有 些 村 的 泰 森 多 边 形 完全 落 在 了 汇 水 区 域 分 区 多 边 形 中 ,也 有 相 
当 一 部 分 村 的 泰 森 多 边 形 被 汇 水 区 域 分 区 的 边界 分 成 几 个 部 分 ,而 汇 水 区 域 分 区 
多 边 形 同样 被 分 成 几 个 部 分 。 

(3) 编写 VBA 代码 实现 面 域 加 权 模 型 。 

(4) 图 8. 15 是 通过 面 域 加 权 得 到 的 各 个 汇 水 区 域 分 区 的 人 口 密度 图 。 由 图 
上 可 以 看 出 ,在 和 顺 中 部 汇 水 区 域 的 人 口 分 布 较为 密集 ,而 西部 人 口 相对 较为 
Ж. 


. ile 空间 数据 分 析 教 程 








N 
i 
=. l 
a 
) 3350 6700 13400 20100 26800 = 
mm юэ нын ——mm 11) 


Р 8.14 JKR RK 5 FF RAMS W yr ET 





N 
CX 
` L \ 
AHF HE/ CA /km) 
[__]9.48~9.90 
— EX 9.91-16.05 
' US " ER 16.06-19.90 
* BH 19.91-38.85 
> ШШ 38 .83664.02 
0 3050 6100 12200 — 18300 24400 


图 8.15 和顺 县 各 汇 水 区 域 分 区 大 口 密度 估计 ( 面 域 加 权 》 


8.2.2 分 级 Bayesian 模型 


1. 原理 


对 于 小 概率 事件 或 小 样本 问题 ,其 发 生 率 的 可 靠 性 在 不 同 空间 位 置 有 较 大 差 
异 , 需 要 调整 到 大 体 一 致 和 较 稳 定 的 水 平 ,其 后 的 各 种 统计 分 析 才 能 可 靠 和 可 比 。 
分 级 Bayesian 模型 (hierarchical Bayesian model) 通 过 定义 空间 对 象 属性 值 的 概率 
分 布 参数 ,引信 了 空间 相关 性 , 即 任何 子 区 域 的 属性 值 都 是 依靠 从 研究 区 域内 其 他 
了 区 域 “ 借 来 力量 ”来 获取 的 (Haining,2003) 。 
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分 级 Bayesian 模型 假设 在 某 一 时 间 内 子 区 域 i 的 某 种 病 ( 一 般 是 非 传 染 的 发 
病人 数 较 少 的 病 种 ) 造 成 的 死亡 人 数 Oi) 独 立 且 服从 泊 松 分 布 , 即 

O()~P(ECir(i)) (8. 9) 
RP EG) r(D SPDT KER i 的 病例 死亡 人 数 期 望 值 和 疾病 发 生 相 对 风险 。 
在 分 级 Bayesian 模型 里 , 子 区 域 对 数 变 换 后 的 疾病 发 生 相 对 风险 log Cn GOD (这 里 

log 可 以 以 e 或 其 他 数 为 底 ) 可 表达 为 空间 结构 部 分 v GO 和 随机 部 分 eCO 
log(r(i)) = p+ uli) +eli) (8. 10) 

uli) ~ МСО, А) зеі) ~ NO, o) 


u(i) 100) € NG) ~ N[ У сро Уш.) 
j=l j=] 
式 中 ,NN 为 正 态 分 布 ;k BOTH wG A w (i, DAA aja ВЕ W 元 
素 和 其 行 标准 格式 元 素 , w (i,j) = wli,j)/ D wj. 


2. 案例 


(1) 山西 省 和 顺 县 在 1998 一 2001 年 出 生 缺 陷 尤 其 是 神经 管 畸 形 发 生 水 平 较 高 。 
神经 管 畸 形 是 小 概率 事件 ,加 之 研究 以 村 为 单元 ,空间 颗粒 度 小 ,并 且 样 本 收集 年 份 
较 短 (1998 一 2001 4F) ,使 得 神经 管 畸形 原始 发 病 率 由 于 样本 量 小 而 不 稳定 (参见 本 
书 第 5 章 空间 抽样 ) ,因此 需要 用 Bayes 方法 对 其 进行 调节 ,以 降低 样本 估计 方差 。 

(2) 打开 WinBUGS, 通 过 菜单 File--New 新 建 一 个 空白 的 窗口 。 在 新 建 的 空 
白 窗口 中 输入 三 部 分 内 容 : 模 型 ,数据 及 其 初始 值 定义 (图 8. 16). 
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图 8.16 — WinBUGS 文件 窗口 
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以 下 是 案例 输入 的 模型 定义 代码 ; 





model { 
for (i in1:N) { 

“NUL ftt ol 分 别 记录 每 个 村 相应 时 期 人 口 数 和 出 生 缺 陷 事 件数 
oli] 一 abin(E[i],NULi])“ 以 二 项 分 布 近似 泊 松 分 布 ， 
log(P[i]) <-beta0+ J[i]+e[i] “对 出 生 缺 陷 率 进行 对 数 变换 
eLi]~dnorm(0, prec. e) 
SRL i]«--P[i]/0. 0006 *0. 0006 为 全 县 平均 出 生 缺 陷 率 
РР[ і ]<-збер(5В[1]-1) 
CPP[i]<-step(- (SR[i]-1)) 


#CAR prior distribution for random effects:“ 以 空间 条 件 自 相关 (caR) 调 整 
‘adil JA num 分 别 记录 各 个 村 邻近 村 的 数目 和 编号 信息 
v[1:N]—car. normal (ad3[ J,weights[ ],num[ ]. prec. v) 
for (k in 1:sumNumNeigh) ( 
weights[k] «-1 
} 


#Other práors: 
beta0 —dflat() “beta0 先 验 分 布 
prec. v~dgamma (0. 5,0. 0005) “空间 结构 先 验 分 布 
v.v«-l/prec.v “空间 结构 项 方差 
sigma <-sqrt (1/prec. v) 
sd<-sd(v[] ) 
prec. e~dgamma (0. 5,0. 0005) “随机 项 先 验 分 布 
v.e<-l/prec.e “随机 项 方差 
sigma. e<-1/sqrt (prec. е) 


(3) 点 击 菜单 Model Specification, ,弹出 一 
个 Specification Tool 对 话 框 (图 8. 17) ,以 此 来 加 
载 模型 .数据 及 其 初始 值 。 在 (2) 步 提 到 的 那个 窗 
口中 ,将 model 这 个 关键 字 高 亮 起 来 (图 8. 18)， 
点 击 check model, 这 时 WinBUGS 的 左下 角 状 态 
栏 上 显示 “model is syntactically correct. ”, 接着 
8.17 Specification Tool 对 话 框 把 定义 的 data 前 的 关键 字 list 高 亮 起 来 (图 
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8.19), ci il; Specification Tool 对 话 框 上 的 load data, MJGM Specification Tool 
对 话 框 上 的 num of chains( 马 尔 科 夫 链 的 数目 ) ,案例 里 使 用 的 是 默认 值 1; 紧 跟着 
点 击 SpecificationTool 对 话 框 上 的 compile. MAPA list 关键 字 也 要 
高 亮 起 来 ,并 点 击 Specification Tool 对 话 框 上 的 load inits。 最 后 关闭 Specifica- 
tion Tool 对 话 框 。 





8. 19 检验 数据 定义 准确 性 


* 116 • 空间 数据 分 析 教 程 








(4) 点 击 菜单 Inference->Samples, 弹 出 一 个 Sample Moniter Tool 对 话 框 来 
(图 8. 20) 设 置 模型 参数 。 在 Sample Monitor Tool 对 话 框 的 node 中 填 要 估计 的 
参数 名 ,并 逐一 点 set。 关 闭 Sample Monitor Tool 对 话 框 。 

(5) 点 击 菜 单 Model->Update, 弹 出 一 个 Update Tool 对 话 框 ( 图 8.21)。 将 
Update Tool 对 话 框 中 的 updates 改 大 点 ,比如 5000, 点 击 update 按钮 。 运 行 完 
fa». 7 Update Tool 对 话 框 。 





图 8.20 Sample Monitor Tool 对 话 框 图 8.21 Update Tool 对 话 框 


(6) 点 击 莱 单 Inference->Samples, 弹 出 一 个 Sample Monitor Tool 对 话 框 。 
在 弹出 的 Sample Monitor Tool 对 话 框 上 选 一 个 node, 点 击 history 看 参数 变量 所 
有 迭代 的 时 间 序列 图 ,点 击 trace 看 最 后 一 次 迭代 的 时 间 序列 图 ,点 击 auto cor 看 
correlogram 时 间 序 列 图 ,点 击 stat 看 参数 估计 结果 ,点击 density 看 核 密度 函数 估 
计 平滑 曲线 图 (图 8. 22), 
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图 8.22 模型 各 个 参数 变量 的 核 密度 函数 估计 平滑 曲线 图 
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(7) FA 8. 23 是 分 级 Bayesian 模型 估计 出 来 的 和 顺 县 各 个 村 的 出 生 缺 陷 发 生 
率 等 级 分 布 图 。 通 过 图 可 以 看 出 ,在 和 顺 县 中 部 偏 北 、 东 南部 的 村 落 里 ,出 生 缺 陷 
“发生 率 相对 较 高 。 


图 例 
0.5175-0.5624 


ШШ 0.6635~0.7600 
IE 0.7601-0.9843 





图 8.23 ”和顺 县 1998— 2001 年 出 生 缺 陷 发 生 率 等 级 分 布 图 


8.3 空间 热点 探测 


空间 热点 探测 试图 在 研究 区 域内 寻找 属性 值 显著 异 于 其 他 地 方 的 子 区 域 , 视 
为 异常 区 ,这 将 提示 疾病 暴发 的 区 域 .犯罪 高 发 区 、 灾 害 高 风险 区 等 。 从 某 种 意义 
上 来 说 ,空间 热点 分 析 是 空间 聚 类 的 特例 。 根 据 探测 目的 ,空间 热点 分 析 方法 可 分 
为 焦点 聚集 性 检验 和 一 般 聚 集 性 检验 。 焦 点 聚集 性 检验 用 于 检验 在 一 个 事先 确定 
的 点 源 附近 是 否 有 局 部 聚集 性 存在 ;而 一 般 聚集 性 检验 是 在 没有 任何 先 验 假设 的 
情况 下 对 聚集 性 进行 定位 (Besag et al. ,1991)。 一 般 聚 集 性 检验 又 分 为 聚集 性 探 
测 检 验 和 全 局 聚集 性 检验 。 聚 集 性 探测 检验 对 局 部 聚集 性 进行 定位 ,并 确定 其 统 
计 学 意义 ;而 全 局 聚集 性 检验 是 用 于 确定 在 整个 研究 区 域内 是 否 存 在 聚集 性 
(Kulldorff, 1998; Tango, 2004) 。 
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8.3.1 空间 扫描 统计 量 
1. 原理 


哈佛 大 学 医学 院 的 Kulldorff (1997) 提 出 来 的 空间 扫描 统计 量 是 一 种 聚集 性 
探测 检验 方法 ,目的 是 运用 一 系列 扫描 圆 在 研究 区 域 探测 出 疾病 空间 聚集 性 。 该 
方法 在 开始 进行 探测 时 ,随机 选取 研究 区 域内 某 一 病例 点 或 小 范围 中 心 点 (如 乡镇 
FO ,以 其 为 圆心 生成 一 系列 扫描 圆 。 这 些 扫描 圆 的 半径 由 0 到 规定 的 上 限 按照 一 
定 的 步 长 逐步 变化 。 当 扫描 圆 半径 达到 规定 的 上 限 后 ,该 方法 便 又 以 区 域内 另外 
一 个 病例 点 为 圆心 ,开始 新 一 轮 的 圆 形 扫描 。 整 个 扫描 过 程 直到 遍历 完 所 有 的 病 
例 点 后 结束 。 这 时 研究 区 域内 已 经 生成 了 无 数 个 不 同位 置 .大 小 不 一 的 扫描 圆 。 
方法 对 每 个 扫描 圆 , 利 用 圆 内 外 病例 实际 值 和 期 望 值 计算 了 一 个 似 然 比值 。 病 例 
概率 分 布 情况 不 同 ,所 用 的 似 然 比 求解 公式 也 不 同 。 目 前 该 方法 已 经 提供 了 针对 
二 项 , 泊 松 .指数 和 序数 分 布 的 似 然 比 计算 公式 。 其 中 泊 松 似 然 比值 计算 公式 
如 下 : 














ES 

= (z) (G)— (z) EZ (ng — п.) 8.11 
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BD 


式 中 ,4 为 似 然 比 值 ;w(G) 为 整个 研究 区 域 G ЛАП исе) ЖЧ z 内 人 口 
数 ;nc Mn. 分 别 为 区 域 G ЖИЙ] = 内 的 实际 病例 数 ;T() 是 一 个 指示 函数 ， * * 
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圆 ,其 区 域内 发 病 率 明显 高 于 区 域外 。 方 法 在 扫描 过 程 结束 后 ,将 所 有 扫描 圆 的 似 

然 比 由 大 到 小 排序 ,选择 排 在 前 面 的 若干 个 作为 疾病 聚 类 备 选区 域 进 和 人 Monte 

re Carlo 检验 。 通 过 检验 的 扫描 圆 便 是 最 后 探测 
xi - 到 的 疾病 聚集 高 发 区 域 。 


| Create New Session | 2. 案例 
IM ES, Fo, маз MAS dei te езу зое рх 3 


(1) 所 用 数据 是 山西 省 和 顺 县 1998 ~ 2005 
年 8 年 间 出 生 人 数 大 于 0 的 315 个 村 的 中 心 点 
经 纬度 坐标 .出 生 人 口 及 出 生 缺 陷 病 例 数 据 。 
案例 意 在 探测 和 顺 县 在 这 8 年 间 是 否 存在 出 生 
缺陷 发 生 热点 区 域 。 
图 8. 24 ”创建 文件 对 话 框 (2) 在 SatScan 里 新 建 一 个 文件 (图 8. 24， 
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图 8. 25)。 由 于 出 生 缺 陷 为 小 概率 事件 ,所 以 案例 采用 SatScan 中 二 项 分 布 模型 来 
进行 空间 热点 分 析 。 二 项 分 布 模型 分 析 需 要 3 个 文件 ;后 级 名 为 . cas 的 文件 反映 
病例 信息 ,包含 有 病例 所 在 村 的 地 理 编码 、 病 例 产 生年 份 和 病例 数目 ;后 级 名 为 
. ctl 的 文件 反映 风险 人 群 信 息 , 与 前 一 文件 不 同 的 是 ,其 包含 的 是 风险 人 群 数目 
(出 生 人 口 减 去 出 生 缺 陷 人 数 ) 而 不 是 病例 数 ;后 级 名 为 . рео 的 文件 包含 村 的 经 续 
度 坐 标 。 特 别 值得 注意 的 是 ,由 于 研究 的 是 8 年 整体 情况 ,所 以 案例 在 .cas ЖП. ctl 
文件 里 都 把 病例 产生 年 份 统一 输入 为 1998. 






Стра 
NE «sx f р EE 


End Date: Я Ё ER 


Population File: (Poisson Model) 
j E 8 








图 8.25 文件 输入 界面 


(3) 接着 进行 模型 参数 选择 。 如 图 8. 26 所 示 ,案例 进行 的 是 纯 空间 聚集 性 探 
测 , 所 用 的 二 项 分 布 似 然 比 计算 模型 , Monte Carlo 模拟 的 次 数 为 999 次 。 点 击 参 
数 选择 界面 上 的 Advanced 按键 ,还 可 以 进一步 设置 搜索 圆 参数 ,图 8. 27 显示 案 

例 规定 搜索 圆 在 覆盖 了 研究 区 全 部 的 50% 人 口 时 停止 搜索 。 

: (4) 最 后 进行 结果 输出 设置 。SatScan 无 图 形 展示 功能 ,输出 结果 只 能 保存 在 
5 个 文件 中 (图 8. 28) ,所 有 文件 都 与 用 户 在 Results File 里 输入 的 .txt 文档 同名 ， 
但 后 级 名 各 不 一 致 。 其 中 .cc 文件 记录 的 是 热点 区 域内 病例 的 信息 ,. col 文件 反 
映 的 是 热点 区 域 总 体 发 病 信息 ,. gis 文件 记录 各 热点 区 域 地 理 位 置 。 这 些 文件 信 
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Input Analysis | Output | 


Type of Analysis Probability Моде! Scan for Areas with: 
Retrospective Analyses: C Poisson ( High Rates 


@ Purely Spatial С Low Rates 


C Purely Temporal ce C High or Low Rates 
© Space-Time 
Time Aggregation 
Prospective Analyses: 


C Purely Temporal 


© Space-Time 


Monte Carlo Replications (0, 9, 999, or value ending in 999}: [999 


Advanced >> 





图 8. 26 参数 选择 界面 


Advanced Analysis Features 





(Spatial Window | Temporal Window | Space and Time Adjustments | Inference | 


Maximum Spatial Cluster Size 
% is [50 percent of the population at risk (<= 50%, default = 50%) Set Delauls | 
C is E percent of the population defined in the max circle size fle (<= 50%) 
PR Taf Ri 
| C = acuche with a | kilometer radius 
| I 
| © Spatial Window Shape 


(* Circular 





图 8.27 搜索 圆 参数 设置 界面 
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息 可 在 ArcGIS 里 展示 。 点 击 界面 上 的 Advanced 按键 ,还 可 以 进一步 设置 热点 区 
域 标准 ,图 8. 29 显示 在 案例 运行 软件 过 程 中 ,地 域 上 相互 重 耕 的 热点 区 域 只 能 取 
其 一 。 


FRE Ee нА SEM | 
| | Optional Output Fies“ — EE zc — 
| Asch ые 
- | Cluster information F r | 
| Cluster Case infomation Vv r | 
| | Location Information Б 一 | 
| Risk Estimates for Each Location кю E | 
Simulated Log Likethood Ratios [1 r | 





| Advanced >> 


图 8.28 结果 输出 设置 界面 


| | © No Geogaphical Overlap 

| © No Cluster Centers in Other Clusters 

| © No Cluster Centers in More Likely Clusters 

| | € No Cluster Centers in Less Likely Clusters 

| | € NoPain of Centers Both in Each Others Clusters 

| © No Restrictions = Most Likely Cluster for E ach Grid Point 


| Cabera for Reporting Secondary Clusters — — 226 








РА 8.29 热点 区 域 标准 设置 界面 


(5) 点 击 工具 栏 里 类 似 于 闪电 标示 的 按钮 ,开始 运行 模型 程序 。SatScan 全 
程 显示 记录 模型 运行 情况 。 如 图 8. 30 Br ,运行 情况 展示 界面 除了 显示 类 似 于 
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运行 所 涉及 的 人 口 和 病例 数 等 模型 整体 信息 以 外 ,还 记录 模型 探测 出 来 的 热点 
区 域 信 息 。 


(37. 386000 M, 113.394000 E) / 0.00 km 
8 


Number of cases LES | 
Expected о RETA : 0.19 
Observed / expected...: 15. 817 
Relative risk 

Log likelihood ratio..: Б. 075372 





o warnings or errors encountered. 





图 8.30 ”模型 运行 情况 展示 界面 


8.3.2 分 级 热点 探测 
1. 基本 原理 


分 级 热点 探测 是 全 局 聚集 性 检验 方法 之 一 , 它 是 根据 某 种 规则 (如 邻近 距离 ) 
来 获取 “金字塔 ?型 多 层次 空间 热点 区 域 的 。 在 分 级 热点 探测 中 ,首先 通过 定义 一 
个 “聚集 单元 ”的 “极限 虐 离 或 冰 值 ,然后 将 其 与 每 一 个 空间 点 对 的 距离 进行 比较 ， 
当 某 一 点 与 其 他 点 (至 少 一 个 ) 的 距离 小 于 该 极限 距离 时 ,该 点 被 计 信 聚集 单元 。 
也 可 以 指定 聚集 单元 的 点 数目 来 强化 聚集 规则 。 依 此 类 推 ,可 以 得 到 不 同 层次 的 
热点 区 域 ( 王 劲 峰 等 ,2005) 。 

分 级 热点 探测 具体 实施 步骤 如 下 : 

(1) 计 算 所 有 空间 点 对 之 间 的 距离 ,构造 出 一 个 对 称 的 距离 矩阵 。 
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(2) 计 算 极限 距离 D: 
0. 261 36 
D=0.5 VAt gz) (8. 12) 
式 中 ,A 为 研究 区 域 面积 ;n 为 空间 点 数目 :: 为 给 定 置 信 度 时 的 分 位 数 , 有 表 
可 查 。 


(3) 在 距离 矩阵 中 所 有 小 于 极限 距离 的 点 对 被 挑选 出 来 作为 聚集 区 的 候选 对 
象 ,构建 出 一 个 精简 后 的 距离 矩阵 。 

CD 对 精简 后 的 矩阵 中 的 空间 点 ,根据 其 与 其 他 点 之 间距 离 小 于 极限 距离 的 
点 的 数量 进行 排序 ,选择 具有 最 大 数量 的 点 作为 第 一 个 聚集 区 的 初始 点 。 

(5) 所 有 那些 距 其 初始 点 距离 小 于 极限 距离 的 点 被 挑 出 作为 第 一 个 聚集 区 ， 
计算 出 聚集 区 中 点 的 个 数 ,如 果 等 于 或 大 于 聚集 区 ,必须 包含 指定 的 最 少 点 的 数 
量 , 则 该 聚集 区 被 保留 下 来 ,否则 该 聚集 区 被 放弃 。 

(6) 对 保留 下 来 的 聚集 区 ,计算 其 几何 中 心 ,并 作为 聚集 区 的 标示 。 

C) 将 已 经 包含 在 聚集 区 中 的 点 排除 在 下 一 个 聚集 区 的 计算 过 程 中 ,对 其 余 
点 ,重复 步骤 (5)、(6) ,直到 所 剩 下 的 点 数目 小 于 指定 的 最 少 点 数量 。 


2. 案例 


(1) 所 用 数据 为 北京 市 2003 年 SARS X 11108 例 密切 接触 者 点 位 ,存储 于 
ArcGIS 格式 (Wang et al. ,2006) 。 

(2) 打开 Crimestat 软件 ,选择 输入 shape 文件 (图 8. 31(a)) ,指定 文件 后 在 数 
据 设置 (Data setup) 模 块 中 要 指定 相关 的 属性 字段 如 X,Y 坐标 (图 8. 31(b) ) 。 

(3) 选择 分 析 工 具 ( 图 8.31(c))。 点 击 Spatial description, 然后 选择 Hot 
Spot Analysis 1, 再 选择 Nearest Neighbor Hierarchical Spatial Clustering Fk, 
该 方法 产生 和 聚集 区 为 椭圆 。 首 先 需 要 指定 最 近邻 距离 ,可 以 是 一 个 固定 值 ,也 可 以 
是 根据 区 域 面积 和 点 的 分 布 自动 调整 距离 ,通过 拖 动 表示 距离 的 滑 竿 在 Smaller 
和 Larger 之 间 移 动 来 确定 距离 ,距离 越 小 意味 着 最 近邻 的 点 是 由 于 随机 的 原因 造 
成 的 相 邻 的 可 能 性 越 小 ,因此 ,这 个 距离 滑 竿 也 是 表示 显著 性 的 指标 ,在 左 端 
(Smaller) 意 味 着 较 高 的 置信 和 度 ; 然 后 要 指定 作为 聚集 区 的 最 少 的 点 的 数目 以 及 输 
出 的 距离 单位 。 在 计算 聚集 区 时 ,还 要 通过 确定 Number of standard deviations 
for the ellipse 指定 椭圆 的 大 小 ,选择 IX 意味 着 大 约 一 半 的 点 会 被 包括 在 聚集 区 
椭圆 中 ,2X 则 将 大 约 99% 的 点 包括 在 聚集 区 椭 回 中。 聚集 区 椭圆 可 以 通过 Save 
ellipses to 按钮 保存 为 ArcView, MapInfo 或 Atlas’ GIS 格式 的 矢量 文件 。 

(4) 选择 蒙特 卡 罗 模 拟 和 模拟 的 次 数 (图 8. 31(c))。 较 高 次 的 模拟 次 数 会 耗 
费 大 量 的 计算 时 间 ， 
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Data setup | Spatial description Spatial modeling Crime travel demand! Opdons ) Data setup бром description Ураза! moduling Crime Wave! demand Ороста 3 
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(a) 选择 输入 文件 





Distance Analysis I | Distance Analysis II “Hot Spot’ Analysis I | Hot Spot’ Analysis II | 


Г Mode 
[ Furry Mode (F-Mode ттт 


Badius _ RET Б» zJ 


Save result to... 


jave ellipses to... 


Type of search 
(Ç Randon NN distance (must be consistent with area on measurement ге convex hulls to. 


С Fixed distan 
Smalle Search 


Minimum points per [ro Output [Miles z | 


cluster 

Humber of standard 1. SK 
deviations for Ё 
ellipses: 
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(c) ядан 
图 8.31 CrimeStat 软件 的 设置 和 计算 步骤 
(5) 设置 完成 之 后 ,就 可 以 点 击 Computer 进行 计算 。 其 计算 结果 是 一 个 类 似 


log 文件 的 文本 的 描述 (图 8. 32) ,其 中 描述 了 显著 性 水 平等 指标 ,也 可 以 将 聚集 区 
的 椭圆 在 ArcView 中 表示 出 来 (图 8. 33) 。 
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图 8. 32 CrimeStat 的 计算 结果 ;log 文件 


/ 
— J 
f ` Ln 





E даан L ` æ ER 


qp 


图 8.33  CrimeStat 的 计算 结果 ;在 Arc View 中 的 聚集 区 椭圆 (Wang et al. .2006) 


жож 格 数据 回归 


土地 利用 、 环 境 污染 .社会 经 济 统计 数据 在 全 国 不 同 区 域 的 变化 与 这 些 区 域 的 
GDP 产业 结构 ,气候 和 地 瑶 京 赋 和 约束 ,政策 制度 有 直接 关系 ,这 种 关系 可 以 用 
考虑 空间 相关 性 的 格 数据 回归 来 描述 ,用 于 分 析 和 预测 ( 刘 旭 华 ,2005)。 


9.1 通用 模型 


Anselin(1988) 根 据 自 变量 与 因 变量 之 间 的 空间 相关 性 ,给 出 格 数据 空间 回归 
方程 的 通用 形式 
у=, y+Xpt+e (9. 1) 
e=AWre tp p~ NO.) Ni =h: (za) sh; > 0 
式 中 ,y 为 因 变量 ;X ул Xk 的 自 变 量 矩 阵 ;W', 为 nXn PEE РЕ, KRI fit 
本 身 的 空间 趋势 ; o 为 空间 滞后 变量 W y 的 系数 ;有 是 与 自 变 量 X 相关 的 kX1 参 
数 向 量 ;s 为 随机 误差 项 向 量 ; 权 重 和 矩阵 W, 反映 残 差 的 空间 趋势 ;N 为 正 态 分 布 ; 
Q 为 方差 矩阵 ,其 对 角 元 素 为 Qr 是 一 个 外 生变 量 ,a 是 一 个 常数 项 ,h; 是 一 个 
函数 关系 ;4 为 空间 自 回 归结 构 We 的 系数 ,一 般 应 有 0<0<1,0 HES 
分 布 的 随机 误差 向 量 。 整 个 格 数据 空间 回归 方程 受制 于 三 个 参数 poA ain 为 样本 
量 , 为 变量 数 。 根 据 这 三 个 参数 的 取 值 ,存在 不 同类 型 的 格 数据 空间 回归 方程 ， 
对 应 不 同 的 求解 技术 。 例 如 , 当 p= A= a= 0 时 , 格 数据 空间 回归 模型 实质 上 是 一 
个 经 典 线性 回归 模型 ,本 身 不 反映 空间 数据 之 间 的 空间 相关 性 。 在 格 数据 空间 回 
归 方 程 通用 形式 的 基础 上 ,产生 了 两 个 常用 的 格 数据 空间 回归 模型 , 即 空间 灌 后 模 
型 和 空间 误差 模型 。 


9.2 空间 滞后 模型 


1. 原理 


空间 滞后 模型 (LLM-lag) 又 称 混合 回归 -空间 自 回归 模型 。 在 9. 1 节 的 通用 模 
型 中 ,系数 p 姑 0,4 二 0, 回 归 方 程 为 
у= W Wy+XB+ n (9.2) 
这 个 模型 考虑 了 因 变 量 的 空间 相关 性 , 即 某 一 空间 对 象 上 的 因 变 量 不 仅 与 同 
一 对 象 上 的 自 变量 有 关 , 还 与 相 邻 对 象 的 因 变 量 有 关 。 模 型 中 滞后 变量 系数 p Ж 
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明 相 邻 空 间 对 象 之 间 存 在 扩散 或 溢出 等 空间 相互 作用 ,其 大 小 反映 空间 扩散 或 空 
间 滋 出 的 程度 。 如 果 p 显著 ,表明 因 变 量 之 间 存在 一 定 的 空间 依赖 。 


2. 案例 


(1) 案例 所 用 的 是 和 顺 县 在 1998 — 2005 年 有 婴儿 出 生 的 315 个 乡镇 的 有 关 
数据 :乡镇 8 年 总 出 生 缺 陷 率 .乡镇 到 河流 的 距离 .乡镇 到 道路 的 距离 .乡镇 到 地 质 
断层 的 距离 高程. 坡度 .医生 数量 .居民 年 均 纯 收入 .化 肥 年 均 施用 数量 .农药 年 均 
施用 数量 ,水 果 年 均 产量 和 蔬菜 年 均 产 量 。 分 析 目 标 是 找 出 各 个 自然 社会 环境 要 
素 对 出 生 人 缺陷 率 的 影响 形式 及 其 程度 ， 

(2) 启动 GeoDa, 添 加 图 层 文件 village_pt315. shp, 并 打开 创建 好 的 权重 文件 
village_pt315regression. GWT( 创 建 方法 见 8. 1. 1 FF, REYE) ,点 击 Regress Т. 
具 选 项 卡 , 弹 出 Regression 回归 分 析 对 话 框 (图 9.1), Information in the output 
一 项 可 以 根据 需要 进行 勾 选 。 


Regression Title & Output 


Report 


WER ыш 


Output file 


[Regression OLS 

Information in the output 
К Predicted Value and Resi: 
Coefficient Variance M 


К Morans 1 zr-valus 





9.1 Regression 回归 分 析 对 话 框 


(3) 在 Regression 回归 分 析 对 话 框 (图 9. 1) 中 点 击 OK 之 后 ,弹出 如 图 9.2 所 
示 对 话 框 ,可 以 在 此 进行 自 变量 (Independent) 和 因 变 量 (Dependent) 的 选择 ,本 案 
例 将 因 变 最 设 定 为 NTDBR 一 一 出 生 缺 陷 率 (%,) ,11 个 自 变量 分 别 为 : RIVER_ 
DIST 一 一 乡镇 到 河流 的 距离 ,ROAD_DISTA 一 一 乡镇 到 道路 的 距离 ,GRADI- 
ENT_C 一 坡度 ,FAULT_DIST 一 一 到 地 质 断 层 的 距离 ,ELEVATION- 一 高 
程 ,DOCTOR 一 一 医生 数量 ,FERTILIZER 一 一 化 肥 年 均 施用 量 ,FRUIT 一 一 水 果 
年 均 产 量 , NET_INCOME 一 一 居民 年 均 纯 收 入 ,PESTCIDE 一 一 农药 年 均 施用 数 
ht, VEGETABLE 一 一 蔬菜 年 均 产 量 。 将 Weight File 勾 选 ,打开 之 前 创建 好 的 权 
IPE. ТЕ Models 选项 卡 中 ,选择 Spatial Lag 回归 方法 。 图 9. 3 一 图 9.5 Ж 
7R f Spatial Lag 回归 分 析 全 过 程 。 
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图 9.2 变量 选择 ,权重 文件 导 人 及 回归 方法 选择 示意 图 
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图 9.4 运行 完成 对 话 框 


# 93 格 数据 回归 * 129 + 


(4) 最 终 获得 Spatial Lag 回归 分 析 结 果 , 如 图 9.6 所 示 。 它 首先 展示 了 一 些 
关于 回归 分 析 运 行 的 信息 ,包括 因 变 量 的 均值 和 标准 差 、 模 型 参数 的 设 定 、.F- 检 验 
概率 、 对 数 似 然 值 及 特 指 的 空间 权重 文件 Village pt315regression. GWT 等 。 接 
着 列举 了 回归 方程 中 每 个 自 变量 的 系数 ,标准 差 和 显著 性 。 值 得 注意 的 是 ,出 生 缺 
陷 率 的 空间 滞后 变量 W_NTDBR 作为 多 余 指 标 变 量 也 出 现在 其 中 , 它 的 系数 Lag 
coeff. 《Rho) 大 小 反映 了 315 个 乡镇 数据 里 固有 的 空间 相关 性 ,而 这 种 相关 性 是 通 
过 每 个 乡镇 数据 所 受到 的 邻近 乡镇 数据 平均 影响 来 计量 的 。 从 图 9. 6 可 以 看 出 ， 
乡镇 到 河流 的 距离 .乡镇 到 道路 的 距离 .高程 .坡度 .水果 年 均 产 量 . 居 民 年 均 纯 收 
入 ,化 肥 年 均 施用 数量 和 医生 数量 都 与 出 生 缺 陷 率 正 相关 , 而 乡镇 到 地 质 断层 的 距 
离 . 农 药 年 均 施用 数量 和 蔬菜 年 均 产量 则 与 出 生 缺 陷 率 负 相 关 。 不 过 ,所 有 的 自 变 
量 组 成 的 方程 都 没有 通过 显著 性 检验 ,因而 Spatial Lag 回归 分 析 没 有 找到 真正 对 
出 生 和 缺陷 率 起 作用 的 环境 因素 。 在 图 9.6 最 下 端 ,还 展示 了 异 质 方差 和 空间 相关 
性 检验 等 回归 诊断 结果 。 









SUMMARY OF OUTPUT: SPATIAL LAG MODEL - MAXIMUM LIKELIHOOD ESTIMATION 
Data set : village pt315regression 


Spatial Weight 1 EE — GWT 

Dependent Variable : Number of Observations: 315 
Mean dependent var : — Number of Variables : 13 
8.0. dependent var : 58.7495 Degrees of Freedom : 302 
Lag coeff. (Rho) -0.0346332 

















R-squared š 0.039703 Log likelihood š -1723.71 
8q. Correlation : = Akaike info criterion ; 3473.43 | 
Sigma-square ; 3314.47 Schwarz criterion 3 3522.21 
8.E of regression š 57.5714 I 













LS ьа. Te 


NTDBR -0. 03463316 0. 07994722 =0. 4332002 0. 6648694 
CONSTANT -43.23298 46.59309 -0.9278839 0.3534677 
ROAD DISTA 0.0108885 0.004020798 2.708044 0.0067682 
RIVER DIST  0.0002364088 0.001566414 .0.1509236 0.8800360 
GRADIENT 0.3261941 1.006309 0.3241492 0.7458252 
FAULT DIST -0.001406051 0.00113117 =1. 243005 0. 2138660 






































VEGETABLE 0. 04672288 0, 04766528 ‘0. 9761331 0.3289985 
PESTCIDE -1.731015 8.335078 -0.2076783 .0. 8354803 
NET, INCOME 0. 007264685 0. 006825824 1.064294 0.2871955 
FRUIT -0.1971206 0.4838928 -0.4073642 0. 6837406 
FERTILIZER 0.03390466 0.121522 n.2790001 0.7802448 
DOCTOR 1.1286 4.746284 0.237786 0.8120472 
ELEVATION1 0.03662936 0.03287083 1.114342 0.2651325 
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图 9.6 Spatial Lag 回归 分 析 结 果 示 意图 
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9.3 空间 误差 模型 
1. 原理 


当 假定 空间 依赖 性 是 通过 忽略 了 的 变量 产生 作用 时 ,空间 误差 模型 (LM- 
error) 是 一 种 比较 准确 的 模型 。 它 通过 不 同 地 区 的 空间 协 方差 来 反映 误差 过 程 ， 
当 误 差 遵循 第 一 阶 过 程 即 系数 p= 0,.A%0 时 ,9. 1 节 的 通用 模型 为 

y=XB+e (9. 3) 
£—AWe Ки 
式 中 ,参数 ) 为 回归 残 差 之 间 空 间 相关 性 强度 。 

对 空间 滞后 模型 和 空间 误差 模型 进行 估计 时 , 若 用 最 小 二 乘法 (OLS) 估 计 , 则 
非 球形 扰动 误差 将 会 产生 无 偏 但 非 有 效 的 估计 。 而 且 , 由 于 估计 的 参数 方差 是 有 
偏 的 ,基于 OLS 估计 的 结果 推论 容易 产生 误导 ,因此 ,上 述 两 个 模型 一 般 需 用 极 大 
似 然 法 (ML) 或 广义 矩阵 估计 法 (CGMM) 和 估计 。 

在 实际 应 用 中 ,如 何 判别 哪个 模型 更 加 符合 客观 情况 , Anselin(2005) 提 出 了 
如 下 标准 ;先进 行 OLS 回归 分 析 , 如 果 在 空间 相关 性 的 检验 中 发 现 ,空间 滞后 模型 
拉 格 朗 日 乘 数 检验 统计 量 LM-lag 较 之 空间 误差 模型 拉 格 朗 日 乘 数 检验 统计 量 
LM-error 在 统计 上 更 加 显著 , 则 选择 空间 滞后 模型 ;相反 ,如 果 LM-error HK 
LM-lag 在 统计 上 更 加 显著 , 则 选择 空间 误差 模型 ;如 果 两 个 都 不 显著 ,那么 就 保留 
OLS 回归 的 结果 ， 


2. 案例 


(1) 案例 所 用 数据 及 分 析 目 标 都 与 9. 2. 2 节 的 空间 滞后 模型 案例 一 致 。 

(2) 启动 GeoDa, 添 加 图 层 文件 village pt315. shp, 并 打开 创建 好 的 权重 文件 
village pt3l5regression. GWT( 见 8.1.1 节 ), 点 击 Regress 工具 选项 卡 。 在 Re- 
gression 回归 分 析 对 话 框 中 点 击 OK 之 后 ,弹出 如 图 9. 2 所 示 对 话 框 ,可 以 在 此 进 
行 自 变量 和 因 变 量 的 选择 。 本 案例 同样 将 因 变 量 设 定 为 NTDBR Ui dh pe ow 
Co) ,其 余 的 11 个 自然 社会 环境 变量 则 被 选取 为 自 变 量 。 将 Weight File AE 3T 
开 之 前 创建 好 的 权重 矩阵 文件 。 在 Models 选项 卡 中 ,选择 Spatial Error 回归 方 
法 。 图 9. 7 一 图 9.9 为 Spatial Error 回归 分 析 过 程 示 意图 。 
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图 9.7 Spatial Error 回归 方法 选择 图 9.8 运行 完成 对 话 框 
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图 9.9 运行 结果 保存 对 话 框 


(3) 最 终 获得 Spatial Error 回归 分 析 结 果 , 如 图 9. 10 所 示 。 与 Spatial Lag 回 
归 分 析 的 结果 (图 9. 6) 相 比 ,案例 同样 使 用 了 空间 权重 文件 Village pt 315 regres- 
sion. GWT。 在 所 列 的 方程 变量 中 ,出 生 缺 陷 率 的 空间 自 回归 结构 系数 Lag coeff, 
(Lambda) 作 为 多 余 指 标 变量 出 现在 其 中 。 从 图 9. 10 同样 可 以 看 出 各 种 要 素 与 出 
生 缺 陷 率 的 统计 相关 性 。 不 过 ,所 有 自 变量 组 成 的 方程 还 是 没有 通过 显著 性 检验 ， 
因而 Spatial Error 回归 分 析 也 没有 找到 真正 对 出 生 缺 陷 率 起 作用 的 环境 因素 。 在 
图 9. 10 最 下 端 ,还 展示 了 异 质 方差 和 空间 相关 性 检验 等 回归 诊断 结果 。 


LIKELIHOOD ESTIMATION 
. 


Spatial Weight 

Dependent Variable : NTDBR Number of Observations: 
Mean dependent var : 24.010194 Number of Variables 
S.D. dependent var : 58.749519 Degree of Freedom 

Lag coeff. (Lambda) : -0.029405 


R-squared $ 0.039394 R-squared (BUSE) +” 

8q. Correlation $ Leg likelihood :-1723.752199 
Sigma-square š 3315. 537314 Akaike info criterion : 3471.5 
8.E of regression  : 57.5807 Schwarz criterion : 3516.535267 


45.77359 -D. 9347075 0.34299390 
| 05001103041 . |  -1.237721 0. 2150196 
0.9988568 0. 3045213 0. 7607309 
s 0. 001532189 |. 0.13465 0. вэ28в86 
0.01081409 0.003993176 2.708143 0.0067 
0.03593302 0.03224269 1.114455 ча 
0.04569246 0.04715529 0. 9589784 0,3325559 
-1.577899 8.238964 -0. 1915155 0.8481217 
0.007065318 0. 006668566 1.059496 — 0.2693741 
-0.1978395 0.4815596 -0.4108307 .6811 


0.03345439 0. 1206258 0.2773403 | 
1.139583 4.747559 0.2400356 0. 
-0.02940484 0. 08051986 -0.3651875 
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Р 9.10 Spatial Error 回归 分 析 结 果 示 意图 
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9.4 地 理 加 权 回 归 


地 理 加 权 回 归 模 型 (GWR) 扩 展 了 线性 回归 模型 ,其 回归 系数 8 不 再 是 全 局 性 
的 统一 单 值 ,而 是 随 空间 位 置 ; 变化 的 B,, 从 而 可 以 反映 解释 变量 对 被 解释 变量 的 
影响 (弹性 ) 随 空间 位 置 而 变化 。 

地 理 加 权 回 归 的 实质 是 局 部 加 权 最 小 二 乘法 ,其 中 的 权 为 待 估 点 所 在 的 地 理 
空间 位 置 到 其 他 各 观测 点 的 地 理 空间 位 置 之 间 的 距离 函数 ， 这 些 在 各 地 理 空间 位 
壮 上 估计 的 参数 值 描述 了 参数 随 所 研究 的 地 理 空间 位 置 变化 的 情况 ,用 以 探索 空 
间 数 据 的 非 平 稳 性 。GWR 数学 模型 形式 为 (Fothringham et al. ,1996,2000) 

y, = ao (ui) + У) as (u, suri Fe (9. 4) 
式 中 ,y, 为 第 i 点 的 因 变 量 ;zx 为 第 k 个 自 变量 在 第 i PU LL 为 自 变 量 记 数 ;i 
为 样本 点 记 数 :e HRX, (u,v) 为 第 i 个 样本 点 的 空间 坐标 ;a Си, ,wv) 为 连续 函 
Bay Cu vd He i ХИН. ДЖ а, (u,v) 在 空间 保持 不 变 , 则 GWR 退化 为 全 局 模 
MY. GWR 估计 值 是 
: alu; svi) = (XTW( u; 0) X) XTW Cu; v) y (9.5) 
式 中 ,W(uwyw ) 为 距离 权重 矩阵 ,是 一 个 对 角 和 矩阵 , 对 角 线 元 素 为 (W， Wost, 
Win) , 非 对 角 线 元 素 为 零 ,n 为 样本 量 ,W, 为 第 j 点 对 第 i 点 的 影响 ,一 种 定义 是 
Wi =exp( —d;, /h*) 3X а, X i 两 点 间距 离 ,h 为 自 定义 带宽 。 


2. 案例 


(1) 本 实验 用 GWR 对 和 顺 县 各 个 村 的 出 生 缺 陷 人 数 进行 预测 。 数 据 采 用 和 
顺 县 各 村 地 理 图 斑 (ArcGIS 可 以 识别 的 . shp XPF) ,其 属性 包括 :土壤 类 型 ,河流 
缓冲 区 .道路 缓冲 区 ,土地 覆盖 、 医 生 数量 ,化肥 数量 , 净 收 入 .农药 数量 .蔬菜 数量 、 
水 果 数 量 、 人 口 数量 (soil_code、 riverbuffer, roadbuffer, landcover, doctor, fertilizer, 
net-income, pestcide, vegetable, fruit, popu) Ж H ^f: ik Ki A tc CNTDB) , 其 中 采用 227 
个 村 的 数据 进行 训练 ,生成 回归 函数 ,99 个 村 的 数据 用 来 进行 预测 验证 。 


(2) каш Йи А ArcMap( 图 9. 11). 

(3) 点 击 地 进行 数据 加 载 ,添加 和 顺 县 数据 (图 9. 12 .图 9. 13), 

(4) 鼠标 右键 单 击 左 侧 列表 中 和 顺 县 图 层 ,打开 属性 类 表 ( 图 9. 14) ,并 选择 前 
227 条 数据 (图 9.15), 

(5) 先 将 属性 表 最 小 化 ,然后 右键 单 击 左 侧 列表 中 和 顺 图 层 , 选 择 将 所 选 数据 
Si CAI 9. 16) ,并 保存 为 heshun_train( 用 以 训练 回归 函数 )( 图 9. 17), 
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图 9.11 ArcMap 操作 界面 
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图 9.12 添加 实验 数据 
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图 9. 14 点 击 属性 表 
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图 9.15 选择 前 227 条 数据 
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图 9.16 选择 导出 数据 
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图 9.17 选择 导出 所 选 数据 


(6) 以 同样 的 方法 将 剩余 的 数据 导出 ,并 保存 为 heshun_test。 
(7) 点 击 似 按钮 ,打开 工具 箱 , 选 择 其 中 的 Geographically Weighted Regression 
项 (图 9. 18) ,进入 地 理 加 权 回 归 GWR 操作 界面 ,输入 各 项 参数 (图 9. 19, 图 9. 20)。 
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图 9.18 选择 工具 箱 中 的 Geographically Weighted Regression 
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图 9.20 ”附加 选项 (用 于 预测 和 输出 ) 
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(8) 参数 及 评价 指标 输出 (图 9. 21, 图 9. 22)。 
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图 9. 21 
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663396. 


490082. 
480085. 


=. 192039 
7.192021 | 





430092, 640752. -. 192033 | 
. 420037 365754. - 192046 | 
480082 1.926277 * 192063! 
480077 417292 ~. 292085! 
480070. 1 977454 - 192112 
400097 096312 | = 132029. 
480087 — — 106200|  —.192073. 
480094 T86246 =,192052 
490079 476914 =. 192101. 
490072 — 2.742812 7.192124. 
430060 366184. - 192151, 
490098, 424904 = 49209, 
480096 2164211 292067 | 
420079 141313 - 192119! 
490105 603459, - 192048 
480063. 296420 ~ 192144 
420066 328913 7.132163; 
420071 2.269079. -.192138 
480114 143522 = 192035 _ 
480095 - 603331 7.182087 
48006 646040. — 192114 
480032 596949. - 192103 
480111 1 101285 7.132056 


图 9.22 训练 样本 时 生成 的 各 项 评价 指标 
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(9) 图 形 输出 (图 9. 23 一 图 9. 26). 






标准 误差 
C <-2.5 Std. Dev 

C3 -2.5~ -1.5 Std. Dev 
EJ - L5 ~ -0.5 Std. Dev 
fll — 0.5 ~ 0.5 Std. Dev 
Wm 0.5-1.5 Std. Dev 

mm 1.5-2.5 Std. Dev 

E >25 Std. Dev 


图 9.23 训练 样本 标准 误差 





图 9.24 测试 样本 真实 神经 管 畸形 发 生 数 (NTDB) 分 布 


3. 解释 


Geographically Weighted Regression 是 ArcGIS9. 3 新 增加 的 功能 模块 。 在 
运算 过 程 中 ,程序 根据 交叉 验证 (cross validation, CV) 来 确定 Bandwidth, iit $$ 
Wr (Gaussian) ph BOR Wh E ALE. kernel type 选择 FIXED 项 表示 用 来 解决 任意 
“аА 3 Br fr) aj He OK H1 BISE A ER AT . 

在 输出 的 评价 系数 中 Condition Number(CCond) 表 示 局 部 的 共 线 性 情况 , 当 大 
于 30 时 ,表明 实验 结果 不 理想 。 本 实验 中 该 值 全 部 小 于 30。Predicted 给 出 其 预 
测 结果 ,Residuals 表明 真实 值 与 预测 值 的 差 。 
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— 
y 
< | g 5 | 
jor 5 ё > I 
/ | Ar 
SA, 
v 


预测 NTDB 值 
77 ~.325667~.500000 
Г) .500001~1.500000 
88 1.500001-2.500000 
юш 2.500001-3.500000 
gg 3.500001—8.000000 


图 9.25 测试 样本 预测 神经 管 畸 形 发 生 数 (NTDB) 分 布 






距 河 远近 变量 的 参数 什 


13 —.003814— — 000735 
ш- 000734—.003826 
m .003827~,009567 


[Н 9.26 据 河 流 远近 变量 参数 空间 分 布 


在 预测 结果 中 由 于 NTDB 的 输出 数值 为 连续 型 ,为 了 和 真实 值 相对 应 ,因此 
将 预测 结果 分 为 五 个 范围 :小 于 0.5.0. 5~1. 5,1. 5~2.5.2.5~3.5 和 3.5 一 8, 分 
别 和 真实 值 的 0.1、2、3、4~8 相对 应 。 从 输出 图 形 可 以 直观 看 出 预测 效果 比较 理 
想 ,而 且 预 测 结果 在 某 种 程度 上 反映 的 出 生 缺 陷 空 间 聚 集 特征 与 真实 情况 相似 ;各 


解释 变量 系数 的 空间 分 布 显 示 了 各 解释 变量 在 不 同 区 域 对 神经 管 畸形 发 生 数 解释 
能 力 的 空间 差异 。 


第 10 章 Q Ж 树 
10.1 JE 理 


决策 树 是 一 个 可 以 自动 对 数据 进行 分 类 的 树 形 结构 ,是 用 树 形 结构 表示 的 知 
识 推理 机 ,可 以 直接 转换 为 决策 规则 。 

经 过 一 批 训练 数据 的 训练 产生 的 一 棵 决策 树 ,可 以 根据 属性 的 取 值 对 一 个 未 
知 实例 集 进行 分 类 。 使 用 决策 树 对 实例 进行 分 类 的 时 候 , 由 树 根 开始 对 该 对 象 的 
属性 逐渐 测试 其 值 ,并 且 顺 着 分 支 向 下 走 ,直至 到 达 某 个 叶 结 点 ,此 叶 结 点 代表 的 
类 即 为 该 对 象 所 处 的 类 ,如 图 10. 1 所 示 。 





图 10. 1 劳动 合同 签订 成 功 与 否 的 决策 树 


决策 树 技术 是 一 种 “贪心 "搜索 ,使 用 了 贪心 算法 (greedy algorithm) , 它 把 每 
个 属性 值 依次 试探 加 入 左 子 树 ， 如 果 能 够 找到 更 大 的 信息 增益 (information gain) 
那么 就 把 这 个 属性 值 加 入 左 子 树 ,否则 把 它 退回 右 子 树 。 这 样 试探 下 去 ,直到 左 子 
树 不 能 再 变 大 为 止 , 就 能 求 到 最 大 的 属性 值 。 贪心 算法 总 是 做 出 在 当前 看 来 最 好 
的 选择 ,并 不 从 整体 最 优 考 虑 , E PEK 的 选择 只 是 在 某 种 意义 上 的 局 部 最 优 
选择 。 
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图 10. 2 为 决策 树 实验 步 又 。 





输出 娇 正 决策 


图 10.2 决策 树 实验 步骤 


10.2 R И 
1. 目的 


本 实验 欲 通过 和 顺 县 神经 管 畸形 出 生 缺 陷 数据 训练 生成 决策 树 , 并 通过 该 决 
策 树 对 出 生 缺 陷 率 进行 分 类 预测 。 


2. 教 据 


数据 采用 和 顺 县 神经 管 畸形 出 生 缺 陷 影 响 因子 数据 ,包括 :土壤 类 型 .河流 组 
- 冲 区 .道路 缓冲 区 ,分 水 线 编号 ,坡度 编号 ,岩石 类 型 编号 .断层 缓冲 ,土地 覆盖 、 高 
度 、 先 前 分 水 线 编号 .医生 数量 ,化肥 数 量 、 水 果 数 量 、 净 收入 ,农药 数量 、 蔬 菜 数量 
(soil code, riverbuffer, roadbuffer, watershed ID, gradient code, lithology. code, 
faultagebuffer, landcover, elevation( m) , watershed ID previous, doctor, fertilizer, 
fruit net-income, pestcide, vegetable) LA Ж H1 ^E ОТР rate) 数据 ,在 求 出 生 
缺陷 率 的 过 程 中 将 出 生 人 数 小 于 5 人 的 村 剔除 ,以 便 用 较 稳定 的 发 病 率 进行 后 续 
计算 。 将 出 生 和 缺陷 率 分 为 ;0 二 0 并 且 一 0. 08,0. 08 等 3 类 , 即 无 出 生 缺陷 ,出 生 
缺陷 率 不 高 .出 生 缺 陷 高 发 3 类 。 


3. 软件 使 用 


(1) SPSS16 软件 下 载 地 址 : http://download. pinggu. org/spss/ SPSSv 
16. 0. rar。 
(2) 首先 在 SPSS 中 打开 所 需 NTD 数据 (图 10. 3). 
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Р 10.3 打开 NTD 数 据 
(3) 选择 决策 树 工 具 对 数据 进行 分 析 ( 图 10. 4), 








图 10.4 选择 决策 树 分 类 


(4) 选择 所 要 研究 的 目标 变量 .相关 因素 以 及 所 采用 的 算法 。 本 次 实验 采用 
的 算法 为 Exhaustive CHAID, 这 种 算法 不 仅 可 以 处 理 自 变量 为 连续 性 的 样本 数 
据 , 而 且 还 可 以 利用 多 层 树 形 统计 分 析 法 对 数据 内 涵 作 精确 检验 (图 10. 5). 
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图 10.5 变量 及 算法 选择 
(5) 选择 训练 样本 其 及 验证 样本 量 ( 图 10. 6). 


— — 
| (2) Use pandom assigvrert 
| Training Semele (%} [7500 | Test Semple 25.00% 
| 


er nile 








图 10.6 训练 样本 量 设置 
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(6) 返回 决策 分 类 树 参 数 设置 窗口 ,点 击 OK 即 可 得 到 决策 分 类 树 等 输出 
信息 。 


4. 输出 与 解释 


输出 见 图 10. 7 一 图 10. 10, 

通过 测试 数据 验证 ,决策 树 分 类 的 准确 度 比 较 理想 ,如 决策 树 图 10. 9 所 示 , 由 
训练 样本 进行 分 类 所 得 到 的 平均 准确 率 达 到 67. 9% ,而 测试 数据 到 达 80. 6% 

从 训练 样本 得 出 的 决策 树 图 10. 8 可 以 看 出 ,收入 是 影响 出 生 缺 陷 率 最 重要 的 
因素 ,在 平均 收入 二 1245 且 医 生 的 年 平均 数量 二 0.75 的 村 中 ,出 现 出 生 缺 陷 高 发 
(发 病 率 二 0. 08) 的 概率 相对 较 高 。 当 平均 收入 二 1245 时 ,各 村 通常 会 出 现 出 生 缺 
陷 情况 ,但 并 不 属于 高 发 村 庄 ，。 


ый *Output?2 [Document 1 Viewer 
бе Em View Que укма. уме! o Format a 9 
een B FE es Bue o А 
一 图 Output 
A оо 
日 一 固 Classification Tree 
908 Title 
| Notes (DataSet!) 
一 [省 Active Dataset 
一 六 Wamings 
‚08 Model Summary 
= — 8] Training Sample 
H Title 
lj Tree Diagram 
=—{Q Test Sample 
| тие 


— Tree Diagram 


Q Risk 
— 8 Classification — 


Dependent Vanable 
Independent Variables rive rb roadbuffer, watershed, ID. 
pte tg hy mhology_ code, faultagebuffer, 
dcover, elevation(m), 
watershed | ID. prevous, doctor, fertilizer, fruit, 
net-income, pestcide, vegetable, soil, code 
Validabon Spit Sample 
Maximum Tree Depth 
Minimum Cases in 
Parent Node 





Minimurn Cases in Child 
Node 





图 10.7 结果 输出 
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س ل ر 


NTD_rate 


— — ee ee س‎ 





net-income 
Adj.P-value=0.000. Chi-square-31. 


897. df=2 


Bl >0.08 
W >0<0.08 15.9 26 


Total 70.1 164 





doctor 
Adj. P-value=0.042, Chi-square=12. 
992, df=2 


El >0.08 158 9 Bl >0.08 56 6 
Шш >0<0.08 35 2 W >0<0.08 224 24 





Total 244 57 Total 457 107 


图 10.8 由 训练 样本 生成 的 决策 树 
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NTD rate 


21245 


Bl >0.08 
ш >0<0.08 8.7 


Total 639 23 





<=0.750 >0.750 


Node 4 
Category 


Bl >0.08 оо 0 
@ >0<0.08 143 2 


Total 38.9 14 





Р 10.9 输出 经 测试 数据 验证 的 决策 树 
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分 类 









>0. 08 >0<0. 08 


B. 
>0. 08 
2>0<0. 08 
Bk 70. 1% 29.9% 
2>0. 08 
>0<0. 08 
63.9% 36.1% 


生长 方法 :EXHAUSTIVE CHAID, 
因 变 量 :NTD_rate。 





80.4% 
. 056 
58.1% 
67.9% 














FA 10.10 分 类 正确 率 


10.3 算 法 


决策 树 在 各 级 结 点 选择 属性 时 ,用 信息 增益 (information gain) 最 大 作为 属性 
的 选择 标准 , 其 构造 算法 可 通过 训练 集 工 完 成 ,其 中 T= {(zx,c)), 而 工 = 
(a; ar) 为 一 个 训练 实例 , 它 有 n 个 属性 ,分 别 列 于 属性 表 (A， „А ,其 中 
a, 表示 属性 A; 的 取 值 。cE Clo ,…，co} 为 和 的 分 类 结果 。 算 法 分 以 下 几 步 ， 

(1) 从 属性 表 中 选择 属性 А, 作为 分 类 属性 ; 

(2) 若 属性 А, 的 取 值 有 上 &; 个 , 则 将 本 划分 为 上 ， 个 子 集 Т, UT, „НЯ: 
该 样本 分 类 的 信息 增益 ,其 中 ,Tu = (GO | (х,с))ЄТ, 即 子 集 T, 中 类 C, 的 样 
本 , 且 X 的 属性 取 值 A 为 第 k; 个 值 ; 

(3) 从 属性 表 中 删除 属性 A, ; 

(4) 对 于 每 一 个 T; <А), T=T,;; 

(5) 如 果 属 性 表 非 空 , 返 回 第 一 步 ,否则 输出 。 


第 11 章 贝 叶 斯 网 络 
пук ж 


贝 叶 斯 网 络 (Bayesian networks,BN) 是 用 来 表示 变量 间 连 接 概率 的 图 形 模 
式 , 它 提供 一 种 自然 因果 信息 ,用 来 发 现 数据 间 潜 在 的 相互 关系 。 它 用 概率 权重 来 
描述 数据 间 的 相关 性 ,解决 数据 间 的 不 一 致 其 至 相互 独立 的 问题 ;用 图 形 的 方法 描 
述 数据 间 的 相互 关系 ,直观 便于 理解 , 且 有 助 于 利用 数据 间 的 因果 关系 进行 预测 分 
析 。 贝 叶 斯 网 络 独特 的 不 确定 性 知识 表达 形式 .丰富 的 概率 表达 能 力 、 综 合 先 验 知 
识 的 增 基 学 习 特 性 ,综合 了 领域 知识 和 数据 信息 ,通过 概率 推理 实现 事件 发 生 的 预测 
功能 ,使 其 在 天 气 预报 .生态 建 模 , 疾 病 诊 断 等 方面 得 到 了 广泛 的 应 用 。 

贝 叶 斯 分 类 器 指 的 是 基于 贝 叶 斯 网 络 所 建构 的 分 类 器 。 贝 叶 斯 网 络 是 描述 数 
据 变 量 之 间 关 系 的 图 形 模型 ,是 一 个 带 有 概率 注释 的 有 向 无 环 图 。 贝 叶 斯 网 络 
G 三 《S,P) 由 网 络 的 拓扑 结构 S 和 局 部 概率 分 布 的 集合 P 两 部 分 组 成 ,S 是 一 个 
有 向 无 环 图 DAG, P 代表 用 于 量化 网 络 的 一 组 参数 。 建 立 贝 叶 斯 网 络 分 类 器 可 以 
被 分 为 两 个 子 阶 段 :网 络 拓扑 学 习 即 有 向 非 循环 图 的 学 习 ( 简 称 结构 学 习 ) , 即 利用 
贝 叶 斯 网 络 的 学 习 算 法 ,从 实例 数据 中 建立 所 有 属性 变量 和 类 变量 构成 的 贝 叶 斯 
网 络 结构 ;网 络 中 每 个 变量 的 局 部 条 件 概率 分 布 的 学 习 ( 简 称 参 数学 习 ) ,采用 贝 叶 
斯 类 变量 的 最 大 后 验 概率 。 

根据 对 特征 值 间 不 同 关 联 程度 的 假设 ,可 以 得 出 各 种 贝 叶 斯 分 类 器 。 本 实验 
采用 NB(Naive Bayes) 分 类 器 。NB 分 类 器 假定 各 特征 变量 > 是 相对 独立 的 ,虽然 
这 种 条 件 独 立 的 假设 在 许多 应 用 领域 未 必 能 很 好 满足 ,但 这 种 简化 的 贝 叶 斯 分 类 
器 在 许多 实际 应 用 中 还 是 得 到 了 较 好 的 分 类 精度 。 流 程 如 图 11. 1 所 示 。 





图 11.1 实验 步骤 
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11.2 案例 1: 出 生 缺 陷 预 测 
1. 目的 


本 实验 欲 通过 和 顺 县 神经 管 畸形 出 生 缺 陷 CNTD) 数 据 构造 贝 叶 斯 网 络 ,以 便 
对 出 生 缺 陷 率 进行 分 类 预测 。 


2. 数据 


数据 采用 和 顺 县 神经 管 畸形 出 生 缺 陷 影响 因子 数据 ,包括 :土壤 类 型 .河流 组 
冲 区 .道路 缓冲 区 流域 .坡度 编号 .岩石 类 型 .断层 缓冲 .土地 覆盖 ,高度 、 先 前 流 
域 .医生 数量 ,化肥 数 量 、 水 果 数 量 、 净 收入 、 农 药 数量 ,蔬菜 数量 (soil_code、 
riverbuffer, roadbuffer, watershed ID, gradient code, lithology | code, faultage- 
buffer, landcover, elevation, watershed _ ID _ previous, doctor, fertilizer. fruit, 
net-income , pestcide, vegetable) 以 及 出 生 缺 陷 率 (NTD_rate) 数 据 , 在 求 出 生 缺 陷 
率 的 过 程 中 将 出 生 人 数 小 于 5 的 村 剔除 。 使 用 200 条 样本 数据 用 于 训练 ,70 条 样 
本 数据 用 于 测试 。 


3. 软件 操作 


(1) 软件 BN software 下 载 地 址 : http://www. cs. ualberta. ca/~ jcheng/ 
download. ht。 该 软件 包括 Data PreProcessorBN, PowerConstructorBN 和 Power- 
Predictor 三 部 分 。 

(2) 数据 预 处 理 ,首先 将 数据 存 人 Access 数据 库 ( 图 11. 2 一 图 11.5), 


Welcome to the Data PreProcessort 
і The Data PreProcessor is а tool used with BN 
—— — 
following ftuncbonaaties: гк: 
I. Converting data from other desk top database 
formats to Microsoft ЗЕТ / Access (* DB) format (as 
required by ON PawerPretficter). Я 
2. Detecting and discretreng data fields that 
б contains с онумо data. ч 
EU 3. Dividing the training data into internal training set 
and tinya Grot vet (am required by B 
СЕТУ 


Please note that the test set (data to be 
dassified) used in BN PowerPredictor does not 
need to be pre-processed. Ñ 


~ ёо | нр | Сас | 





图 11.2 数据 处 理 向 导 
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4 


dl Data Pre-processor Step 1 of 


Select the database format of your 
training data set from the list: 









IV Auto detecting continuous 


Fields that can take more than [Б -| 
values are considered continuous. 


Value represents mising or should be 
in a bucket by itself: 


Represent missing: | 
In a bucket alone: | | 


бок | нер | сака | 


图 11.3 选择 Excel 文件 类 型 










i; Data Pre-processor Step 2a of 4 


Enter the path and the name of the the 
database that contains your data set into 
the input box below. You can also click the 
browse button to select a database file. 





图 11.4 选择 文件 所 在 地 址 
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1. Please select the training data set from the current databa: 
Sheet1$ - 


2. Select an existing MS-JET/Access database or creat a new one 





图 11.5 确定 数据 库 及 表 名 


(3) 数据 存 人 指定 Access 库 后 返回 ,在 第 一 步 中 选择 Access 数据 库 类 型 ,并 
对 其 中 指定 数据 进行 离散 化 处 理 。 对 贝 叶 斯 网 络 而 言 , 如 果 不 进 行 离散 化 ,计算 量 
将 变 得 十 分 庞大 ,数据 处 理 效率 低下 (图 11. 6 一 图 11.8). 


а Pre-process 


Select the database format of your 
training data set from the list; 


Fields that can take more than Б +] 
values are considered continuous. 


Value represents mising or should be 
in a bucket by itself; 


Represent missing: 


In a bucket alone: ‘teers 
— ou | tee | ca | 


PA 11.6 选择 Access 数据 库 类 型 





A: Data Pre-processor 
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Step 2a of 4 


Enter the path and the name of the the 
database that contains your data set into 
the input box below. You can also click the 
browse button to select a database file, 


D:Viux\workie ercise books\Bayes net\DB.mdb 


图 11.7 指定 数据 库 所 在 位 置 


i$; Data Pre-processor 


n 


The Data Set (first 100 records) 





- Step 


2, Select an existing MS-XET/Access database or creat а naw cne 
to store the converted training data, 
(Note: а MS-JET database can store many tables.) 


Database Name: [D:\iax\work\Exercise booksiBayes,  DYOWSE.. | 
Table Name: m I DB 


图 11.8 指定 数据 库 
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(4) 对 数据 中 非 离散 型 变量 进行 丧 离 散 ,该 方法 在 离散 化 时 考虑 了 类 别 信 息 
的 条 件 , 从 各 个 被 选 分 割 点 中 依据 最 小 的 原则 寻找 最 优 的 分 割 点 ,能 够 比 其 他 离散 
化 方法 取得 更 好 的 效果 。 勾 选 部 分 为 需要 进行 离散 化 的 连续 性 变量 。NTD rate 为 
类 别 变量 如 图 11. 9 所 示 。 


T] Uncheck the fields names that are not to be 

.] discretized. For each checked field in the list, 
select the number of intervals to be used (the 
default value is 10). 








图 11.9 变量 离散 化 


(5) 在 Access 数据 库 中 将 处 理 后 的 数据 分 成 用 于 训练 与 验证 两 部 分 ,本 实验 
中 选取 200 条 数据 用 于 网 络 训练 ,70 条 数据 用 于 验证 (图 11.10). 


2000 file format) 





àr] 
` Create table in Design view — 
Create table by using wizard 
Create table by entering data 
NTDE 
NTDB TEST 


NTDB. TRAIN 











图 11. 10 Access 数据 库 中 将 数据 分 类 


第 ny 贝 叶 斯 网 阁 . 155 ° 


(6) 点 击 进入 bnpp 模块 ,选择 使 用 数据 学 习 网 络 分 类 器 ,并 选择 数据 库 所 在 
位 置 ( 图 11.11), 


sicome to BN PowerPredictor! This system is designed for leaming 
: Cacsfes (ENC) om data and vong the learned BN Сахоба for 


С Modify an existing belief network classifier and use R 


С Use an existing belief network classifier to classify new data 





| Select à BNC CANE? | 





РӘ 11.11 学 习 网 络 分 类 器 


(7) 选择 用 于 训练 的 表格 及 分 类 变量 ,反选 ID, МАМЕ, CODE 不 需 参 与 构建 
网 络 的 变量 ,进行 网 络 分 类 器 生成 (图 11. 12 一 图 11. 15), 


i 
1 
1 
2 
2 
2 
2 





图 11.12 变量 设置 


ja) at HE ap AT LAE 








Belaef Network PowerPredictor Step 2 


Provide Domain Knowledge and change advanced settings. You can skip this 
step you don’t want to provide domain knowledge. 


Use up and down arrow to move the field names so that a field does not depend on any of 
the fields below È. 





图 11.13 高 级 设置 


Belief Network PowerPredictor Step 3 of 8 


(log file stores intermediate results of a learning process on a 
articular data set. Once a log file is created, it can speed up 
3 learning process up to 10 times when you process the same 
: again. А log file remains valid as long as the underlying 
not been changed. Different settings on ‘fields 
* knowledge’ or ‘Threshold’ do not affect its 


Create a log file for the data set. To update the existing input log 
file, enter the same file name as the input log fie. 


Output log file{[D:\iux\work\Exercise books|Bayes net\LOGFILE.log EEA 


FA 11.14 log 文件 输入 输出 设置 
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Belief Hetwork PowerPredictor Step 4 of 8 


The learning Б finished! You can print a report or save it as a 
text file. If you like, you can go back to change the settings 
and do it again. 


esian Network (with Feature Selection) 


NTD_rate_d -> soil code 
_rate_d -> riverbuffer 


rate | а -> doctor 
aultagebuffer «- watershed ID previous 





图 11.15 结果 输出 
(8) 保存 网 络 分 类 器 ,用 于 分 类 (图 11. 16). 


Belief Network PowerPredictor Step 5 of 8 


1. By default, the costs of d AERIS MA tote ITIN. 
are the same. Please modi, Save the 
table below as necessary b 
cell. The valid values are 
The classifier will try to mi 
“set. 

2.It is time to save the | 
has been modified. 


3.1f you want to use the das ph 
step; otherwise, click "Cancel’ to quit. 


саем аѕ 


«.003 

5.003200 
2.0125«.01 
>.0175<,02 
>,0205<.02 





图 11.16 保存 网 络 分 类 器 
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(9) 验证 贝 叶 斯 网 络 分 类 器 ,首先 选择 数据 库 中 用 于 验证 的 数据 (图 11.17. 
图 11.18), 





Belief Network PowerPredictor ~ Step 6 of 8 


Select the database format of your test data set (data 
to be classified) from the list: 


(If the data set contains the class label for each case, 
the classification accuracy will be given. ) 





Input a case and get its 
Class label instantly: 


Instant Classification 





图 11.17 选择 使 用 Access 数据 库 


| Belief Network PowerPredictor Step Ta of 8 


Enter the path and the name of the the 
database that contains your test data set into 
the input box below. You can also cick the 
browse button to select a database fie, 


¿2.220327 Г) 


} ame: 
|D: WuxworklExercise books\Bayes net DB .mdb 


上 
Бы 





图 11.18 选择 数据 库 所 在 位 置 
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(10) 选择 用 于 验证 数据 所 在 表 及 分 类 变量 , 设 分 类 结果 输出 地 址 (图 11. 19). 





Belief Network PowerPredictor Step 8 of í 


table affects the result.) 


— m 


i y^ cc EE eq ТИЦ 





图 11. 19 分 类 结果 验证 
(11) 对 尚 待 分 类 的 数据 可 用 生成 的 贝 叶 斯 网 络 分 类 器 进行 分 类 (图 11. 20), 


Belief Network PowerPredictor Cover 


| лг ё 





图 11.20 ”进行 贝 叶 斯 分 类 
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4. 输出 
输出 结果 如 图 11.21 和 图 11. 22 所 示 。 
[NTD rae d — | 





vegetable 


[ETT 


图 11.21 见 叶 斯 网 络 分 类 器 


The test dataset contains TÜ cases, among which, 43 cases were classified correctly 
* are 5 cases that cannot be classified, probably caused by mew field values that have mot appeared in 
the training date 
The extisate prediction accuracy is 66 154-11 50% at 95% confidence level 
Confusion matrix 
Predicted => < 003 | > G03<.0125 | > 0125€ 0175 | > 0175< 0205 | > 0205€ 026 
>. 0295<.0305 | >.0305< 032 | > 032< 0945 | > 0345< 0425 | >.0425< 0445 | > 0445< 0405 | ost | 
>.061< 0545 | >.0545< 06 | >.06< 0695 | > 0695< 08 | >.08< 089 | >.089< 1095 | >, 1095< 1275 1275< 138 | 


›.138< 194 | > 194 | Lift Index 
| 60000002 | 0000000 | 0000003 | 0000000 | 0000000 


< 003 | 0000043 | 0000000 | 0000002 | 0000005 | 0000000 
0000000 | 0000000 | 0000000 | 0000002 | 0000001 | 0000002 | 0000000 | 0000000 | 0000000 | 
0000000 | 0000002 | 0 
>.003< 0125 | 0000000 | 0000000 | 0000000 | 0000000 | 0000000 | 2000000 | 2000000 | 0000000 | 0000000 | 
0000000 | 0000000 | 





图 11.22 验证 结果 输出 


由 图 11. 21 可 见 NTD 的 发 病 率 与 现在 以 及 先前 的 流域 .土地 获 盖 类 型 .断层 
缓冲 、 医 生 数量 .河流 缓冲 以 及 土壤 类 型 有 关 ,与 其 他 变量 无 关 , 同 时 先前 的 流域 又 
受到 断层 缓冲 的 影响 。 由 图 11. 22 可 知 , 在 有 70 个 村 的 验证 数据 中 ,43 个 村 得 到 
正确 分 类 。 在 95% 的 置信 区 间 内 ,分 类 正确 率 为 66. 15% +11. 5026, 
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11.3 案例 2: 交通 流 预测 
1. 数据 


本 实验 采用 的 数据 为 交通 流 实时 状态 数据 ,路 口 及 路 段 空间 位 置 关 系 示 意图 
参见 图 11. 23 所 示 , 各 个 属性 字段 的 值 及 含义 如 表 11. 1,38 11. 2 所 示 。 






[72 * be <b s 
tase жи» E nx MN zx 
1280 23192 м о 
Niki ов Su ⁄ Sm. 
Taz mO ELE 1055 
өлш 
Ean 
| 2905 23159 [es ez 
t tA 
[ami * ETNAS 
3 indi fm] — [sel 
[raze — í | — 
BROAN, эд» i 2 
° —Q—eə 4 安定 路 
= "n | 
北太平庄 路 | жа" ым pu 
1030 | — ў | 306 | l1 130] 
[оз | nes EL MHA 
— 1a7 io noz ? 


РА 11.23 多 路 口 多 路 段 空 间 位 置 示意 图 
表 11.1 实验 数据 示例 (2008 年 3 月 3 日 ) 








Timeld R65 R66 R67 R72 R103 
86 C B C C 
87 C A C B 
88 B B C C B 
89 A B C B B 


HE: Timeld 为 时 间 ID, 即 交通 流 状态 发 布 的 时 间 , 以 Smin 为 一 个 发 布 间隔 (每 天 24 小 时 , 共 288 个 ), 编 
号 表示 时 间 段 。 堆 点 后 第 一 个 Smin 为 1, 最 后 一 个 分 段 为 288。Timeld 为 84, 表 示 该 天 早上 7 H. “REK 
示 路 段 编号 。 A.B.C 表示 实时 路 况 ;,A- 拥 堵 ( 车 行 时 速 志 20kmy/h) ,有 缓慢 (20kmyh 一 车 行 时 速 二 40kmyh) . 
C- 畅 通 (车 行 时 速 二 40kmyb) 。 
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11.2 多 路 口 多 路 段 属性 说 明 


RoadID 
(路 段 编号 ) ae „л 


р м | ми | MM | 
з= | ка | ж | 
асан me 
ee | вила _ 
Le | ass [жав — _ 
— — — 
mn | — 
RI | AE | ютп#хї | 
=] | sins | жа — | 
|. | тыма тш _ 
| Ris | 北 四 环 中 路 | хл — 
[ms | i-em | BEAK 
[ mus | some | «ни | 
[m | MIX | XR _ 
[От | жая | ыша | 
[ ma | Cem | жеп#хї | 
| жю | и | А 
L8 | м" | Мыш 
| Rlo55 | 北 四 环 中 路 | хи | 
ee ҮЧ агы. 
| кв | taste | Xm | 
== | | — NN 
| кзз | seman | 北 四 环 中 路 | 
еа | amanan REN — 
| RI329 | ABARA | 德 胜 门 外 大 街 | 
[ww | ема | x W 
| Aas | NAM. Ч 
er^ ue) — 龙 翔 路 
E CAE eno sm M 


ZDname 
(终止 节点 ) 
AC RE 
安立 路 
惠 新 西 街 
安定 路 
北 苑 路 
安立 路 
八达岭 商 速 公路 
花园 东 路 
德 胜 门 外 大 街 
北太平庄 路 
外 馆 斜 街 
安定 路 
北辰 西 路 
八达岭 高 速 公路 
北辰 西 路 
德 胜 门 外 大 街 
RPA 
安定 门 外 大 街 
北 土 城 东 路 
EME 
安定 路 
安立 路 
北辰 东 路 
安定 路 
安 贞 路 
志 新 路 
北 四 环 中 路 
裕 民 路 
德 胜 门 外 大 街 
北 土 城西 路 
裕 民 路 
北 四 环 中 路 
RAM 
北三 环 中 路 
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2. 输入 


该 实验 所 导入 的 数据 表 中 ,条 件 属性 如 表 11. 2 中 所 示 序 号 为 1 一 33 的 路 段 在 
2008 4F 3 H 3 HF 7 f Ctimeld 为 84) 至 晚 7 点 (timeld 为 228) 的 交通 流 状态 , 决 
策 属 性 为 序号 为 34 的 路 段 , 即 R-184(Decision) 在 2008 年 3 月 3 日 早 7,05(time- 
Id 为 85) 至 晚 ?;05(timeld 为 229) 的 交通 流 状态 。 本 实验 中 ,根据 各 路 口 各 路 段 
既成 的 时 空 相关 性 ,利用 特定 区 域内 33 个 路 段 某 历史 时 刻 的 交通 流 状态 对 某 特定 
路 段 (第 34 个 ) 历 史 时 刻 未 来 Smin 的 交通 流 状态 进行 预测 和 推断 。 


3. 软件 使 用 

参见 案例 1(11. 2 ў), 

4. 输出 

如 表 11. 3 及 图 11. 24 所 示 输 出 了 预测 分 类 的 结果 精度 .混淆 矩阵 及 ROC 指数 
表 11.3 预测 分 类 结果 输出 


TIMEID R65 — -- — R-2315 DECISION BNPP OUTPUT Prob A Prob B  PukC 
200 B B c C 0. 04 0. 25 0. 71 
205 B 20€ c c 004 0.25 от 
206 A A A G 0. 04 0. 25 0.71 
217 C C с с 0.04 025 ол 
218 с B B c 004 0.25 ол: 
219 A B B G 0. 04 0. 25 0.71 
220 B B C © 0. 04 0. 25 0.71 
221 C B A c 004 06.25 от 
222 с B с C 004 025 от 
223 B G C C 0. 04 0. 25 0.71 
224 B B B C 00 025 ол 

‚225 C A A c 0.04 0625 от 
226 A C C C 004 025 от 
227 B B B с 004 025 от 
228 C C C C 00 025 от. 


iE: DECISION 为 实际 值 ;BNPP_OUTPUT 为 预测 值 ;Prob. А 判别 为 A 类 的 概率 ;Prob, B 判别 为 B 类 
的 概率 ;Prob. C 判别 为 C 类 的 概率 。 
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The text dataset contains 29 cases, among which, 22 cases were —— жиы 
The estimate iem accuracy is 75. 86+-15.57% at 95% confi 


Confusion matrix: 
Predicted -> | C | Lift Index 


Е = e res 
0000000 | 0000022 | 0. 44671 


00000 0. 66667 0. 21213 
0. 64061 0.00000 


B 
c 





图 11.24 贝 叶 斯 网 络 预测 精度 、 混 消 乍 阵 及 ROC 指数 


5. 解释 


ШЖ 11. 3 中 BNPP_OUTPUT 代表 贝 叶 斯 网 络 对 测试 数据 的 预测 分 类 结果 ， 
Prob. A,Prob. B.Prob. C 分 别 代表 样本 被 判别 为 A、.B、C 类 的 概率 ,从 表 中 可 以 看 
出 该 网 络 结构 将 样本 判别 为 C 类 别 交通 流 状态 的 概率 最 高 , 均 为 71%% ,因此 选择 
出 现 概率 最 高 的 类 别 C 作为 分 类 预测 的 输出 结果 ,因此 ,在 图 11. 24 混淆 矩阵 中 
可 以 看 到 ,C 类 别 交通 流 状 态 预 测 值 与 实际 值 吻合 度 达到 100%(29 个 测试 数据 中 
22 个 C 类 别 ); 而 对 A、B 类 别 交通 流 状态 预测 精度 却 为 0,A、B 类 别 交通 流 状态 
预测 被 判定 为 C 类 别 。 这 与 原始 的 训练 数据 和 测试 数据 本 身 的 规模 (A、B、C 类别 
各 自 的 样本 数 ) 和 值 域 有 很 大 关系 ,比如 训练 数据 集 (116 个 样本 ) 中 决策 属性 为 
A .了 类 别 的 样本 的 个 数 比 较 少 ,同时 也 和 分 类 器 的 分 类 能 力 、 优 越 性 有 关 , 因 此 要 
提高 预测 的 精度 ,还 必须 改进 分 类 算法 ,或 者 是 得 到 涵盖 更 为 丰富 先 验 知识 的 训练 
集 和 测试 集 数 据 。 


11.4 数学 模型 


朴素 贝 叶 斯 分 类 器 将 训练 样本 工分 解 成 特征 向 量 X 和 决策 类 别 变量 C。 假 定 
一 个 特征 向 量 的 各 分 量 相 对 于 决策 变量 是 独立 的 , 即 各 分 量 独立 地 作用 于 决策 变 
基 。 朴 素 贝 叶 斯 分 类 的 工作 过 程 如 下 ( 杨 青 生 和 黎 夏 ,2007) ; 

(1) Fl n ЕЈ X = (ni ，…,z,} 表 示 每 个 数据 样本 ,描述 该 样本 的 nn 个 
BEA, ,*** ,A,。 

(2) 假定 数据 样本 可 以 分 为 mr 个 类 Ci,…,C。 给 定 一 个 未 知 类 别 标号 的 朴 
素 贝 叶 斯 分 类 ,将 其 分 类 到 类 C;, 当 且 仅 当 

РС, | ХРСС; | ХХ), 1<ј<әт,јәі (11.1) 
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AP. PCC, | RR X HARE C, 的 概率 。P(C:|X) 最 大 的 类 C, 称 为 最 大 后 
验 假定 。 
P(X|C,) P(C,) 
P(X) 
(3) 由 于 P(X) 对 于 所 有 类 都 为 常数 ,只 需要 P(X|C;)P(C;) 最 大 即 可 。 类 C; 
的 先 验 概率 可 从 经 验 求 得 ,也 可 从 训练 数据 获得 ,P(C;) = 5,/5, ЖН, S, 是 类 С, 
中 的 训练 样本 数 ,S 是 训练 样本 总 数 。 
(4) 假设 属性 间 不 存在 依赖 关系 , 则 有 


P(X|C,) = [[Р(Х,|С,) (11.3) 
k=1 


式 中 ,概率 РОХ, [CO PCX,1C) 可 以 从 训练 样本 计算 。 如 果 A, 是 离散 值 , 则 
PE(Xe| CD) 一 Sa/Si。 其 中 Su 是 类 Ci 中 属性 Ai 的 值 ,n A X, 的 训练 样本 数 ,S; 是 
Ci 中 的 样本 数 。 

(5) 对 每 个 类 C, ,计算 P(X|C,)P(C,). Ж X 指派 到 类 C; 的 充分 必要 条 
件 是 


P(C,| Х) = (11.2) 


РСС, | X CCO FC, | XP(C,), ]Ixjmm.jvi (11. 4) 


第 12 章 ”人工 神 经 网 络 
12.1 JR H 


人 工 神经 网 络 是 由 具有 数据 自 适 应 性 能 力 的 简单 单元 组 成 的 广泛 并 行 互 连 的 
函数 网 络 , 它 的 组 织 能 够 模拟 生物 神经 系统 对 真实 世界 物体 所 作出 的 交互 反应 ， 通 
过 改变 连接 点 的 权重 来 训练 神经 网 络 完成 特定 的 功能 。 

神经 网 络 都 是 可 训练 的 ( 亦 称 数据 自 适 应 ) ,一 个 特定 的 输入 便 可 得 到 一 个 
输出 ,如 图 12. 1 所 示 。 这 里 ,网 络 连接 权重 根据 模型 输出 和 期 望 输出 比较 差异 
而 调整 ,迭代 直到 网 络 输出 和 目标 匹配 。 





神经 网 络 
(包括 连接 权重 ) Г 
im EL 


图 12.1 神经 网 络 训 练 过 程 


人 工 神 经 网 络 从 神经 元 互 连 的 方式 上 可 分 为 前 向 神经 网 络 和 递归 神经 网 络 ; 
从 层次 结构 上 可 分 为 单 层 与 多 层 网 络 ; 按 信息 处 理 的 方式 又 可 分 为 连续 型 与 离散 
型 网 络 .确定 型 与 随机 型 网 络 、 全 局 逼近 和 局 部 逼近 网 络 ;从 学 习 算 法 上 可 分 为 监 
督 与 无 监督 学 习 、 权 值 学 习 与 结构 学 习 方法 。 具 体 的 神经 网 络 有 MLP, Adaline, 
BP,RBF,CMAC, BSB, BAM, ART, FNN, Hopfield, Elman, CPN 等 几 十 种 结构 。 
它们 都 在 信息 处 理 与 控制 中 得 到 了 广泛 的 应 用 。 相 对 而 言 前 向 神经 网 络 和 递归 神 
经 网 络 的 划分 在 控制 应 用 中 较为 典型 ,前 者 由 于 其 非 线 性 函数 的 通 近 能 力 ,后 者 由 
于 其 对 动态 系统 的 模拟 能 力 , 对 非 线 性 和 动态 系统 的 建 模 与 控制 具有 很 好 的 前 景 
( 文 敦 伟 ,2001) 。 

前 向 神经 网 络 具备 分 层 结构 ,每 层 神经 元 之 间 有 从 输入 达到 输出 的 前 向 连接 
权重 , 同 层 神 经 元 以 及 隔 层 神经 元 之 间 无 连接 。 根 据 神经 元 的 激励 函数 与 求 和 方 
式 不 同 ,有 不 同 网 络 形式 ,其 中 最 典型 的 是 BP 网 络 和 RBF 网 络 。 本 实验 采用 并 
详细 介绍 BP 网 络 ,其 计算 步骤 如 图 12. 2 所 示 。 
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调整 输入 层 到 隐 
会 层 连接 权 数 


调整 隐 含 层 到 输 
出 层 连 接 权 数 





RHE Ê E 
计算 输出 层 输出 





ШЕ AUN ESA Hi 







输入 测试 数据 求 输出 





测试 集 期 望 输出 


12.2 实验 步 又 


12.2 R и 
1. 目的 


本 实验 欲 通过 和 顺 县 神经 管 畸形 出 生 缺 陷 (NTD) 数 据 构 建 神经 网 络 , 以 便 对 
出 生 缺 陷 率 进行 预测 。 


2. 数据 


数据 采用 和 顺 县 神经 管 畸形 出 生 缺 陷 影 响 因 子 的 数据 ,包括 :土壤 类 型 ,河流 
缓冲 区 道路 缓冲 区 ,坡度 、 岩 石 类 型 .断层 缓冲 ,高 度 、 医 生 数量 、 化 肥 数 量 、 净 收 
AR A BOR. Ж Ш (soil _ code, riverbuffer、 roadbuffer、 gradient _ code, 
lithology code, faultagebuffer, elevation (m) , doctor, fertilizer, net-income, pest- 


cide、vegetable) 以 及 出 生 缺 陷 率 (NTD_rate) 数 据 , 在 求 出 生 缺 陷 率 的 过 程 中 将 出 
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生 人 数 小 于 5 ВИ. 
人 工 神 经 网 络 无 法 直接 处 理 分 类 型 变量 (categorical variables) ,所 以 需要 先 
对 分 类 型 变量 进行 处 理 。 通 常 的 做 法 是 引入 哑 变 量 。 例 如 ,变量 岩石 类 型 (lithol- 
ogy_code) 共 有 七 类 (1、2、3、4、5、.6、7), 引 人 哑 变 量 后 ,用 lithology], lithology2, 
lithology3 .lithology4 , lithologyS lithology6 共同 表示 编号 为 1.2.3.4.5.6.7 七 类 
岩石 类 型 , 见 表 12.1. 
表 12.1 对 lithology_code FH3| \ MEH 


变换 前 变换 后 


同 理 对 分 类 变量 soil code 引入 号 变量 进行 表示 。 通 常 对 有 类 的 分 类 变量 
引入 nn 一 1 个 哑 变 量 表 示 ，。 

将 影响 因子 存 人 NTD factor( 包 含 NTD_factor train 和 NTD factor. test) X 
件 ,出 生 缺 陷 人 数 存 人 NTD( 包 含 NTD_train fl МТО _test) 文 件 , 并 去 除数 据 中 的 
字符 型 。 使 用 200 条 样本 数据 用 于 训练 ,70 条 样本 数据 用 于 测试 。 


3. 软件 操作 
(1) 使 用 MATLAB?7. 


(2) moa :进入 MATLAB 7 操作 界面 (图 12. 3). 
(3) 进入 操作 界面 后 ,在 指定 位 置 输入 代码 即 可 训练 并 测试 所 需 神经 网 络 。 
在 MATLAB 7 中 输入 以 下 代码 (图 12. 4): 
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HATLAB 
File Edit Debug RBesktop find Kelp 
D a £ Wa т uva. v к mn 了 Current Directory: Croern FilesVWATLAETIVwerk м LJ ® 


Shortcuts A] How to Add [F] Bhat’ £ Ner 


Mari i , x 
TETRI Om 
pup š _ [vas d 





< 


Current Directory Yorkzpace 


Command Hastory 
net=init (net) ; 
net, trainParsa. goal=0. 001; 
net. trainPar an. epochs 1000 
net, trainParan. show-10 
(net, tr]=train(net, pn, tn) ; 
bns sia(net, рл); 
vebretn 





图 12.3 操作 界面 


MATLAB 
Eile Edit View Graphics Debug Desktop Yindow Help 
D G & bè А «> Се "8 ч B y Current Directory: С \Progren Files\MATLADTI werk © | © 
Shorteuts [F] Mew to Add 四 That's Nev 





[Workspace 


LESE E qu 

Value 

«326x18 doul ^ 

«326x1 doubl р> clear all; 

<1x326 doubl Fxlsreasd( D:iliuxVworkVXEgercise boakziArtificisl Neural Networks NID fa 

«1x1 network b-xleread( D:iliux' work Exercise bookssArtificial Neural Nets eke NID. x1 

<18r325 dout Ë 

«1x326 doubl 

eivi сть [ ^ ^ tn, nint, maxt]=prexrax (р, t) 
st-newff (mirmax (рп), [10, 1], [ tansyg', purelin'], trainlw ) 

“init (net) 


х + trainParan. goal=0. 001 


net=init (net) | .trainParas, epoche- 1000; 
net. trainParan. goal=0. 00 


net. trainParan, epochs= LOI 
net. trainParan. show=10, 


et. trainParam. shows 10; 
[net, tr] *t rain(net, pn, tr) ; 


bn- sinnet, рп); 
(net, tr] »trainínet, pn, tn; 


bn- sinnet, pr), 


y-bn-tn 9.0 
٤ 2 





图 12.4 操作 界面 
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clear all; 
a-xlsread('D:MiuxWorkMExercise books\Artificial Neural Networks\NTD fac- 
tor train. xls'); 
b= xlsread ('D: M liuxV work Exercise books\Artificial Neural Networks\NTD_ 
train. xls'); 
$ 分 别 获 取 用 于 训练 网 络 的 NTD 的 影响 因素 及 出 生 缺 陷 人 数 ,并 赋值 给 a、b。 
рп=а'; 
tn-b'; 
s 对 数据 矩阵 进行 转 置 。 
+ Гра, тіпр, тахр, tn,mint,maxt ]=premnmx (pn, tn) ; 
$% 在 某 些 研究 中 为 了 加 快 训练 速度 而 需 对 数据 进行 归 一 化 处 理 。 在 本 实验 中 不 需 对 数据 进行 归 
一 化 处 理 。 
net=newff (minmax (pn), [5,1],{' tansig','purelin'],'trainlm'); 
使 用 newff 函数 创建 级 联 前 向 神经 网 络 , 隐 藏 层 节 点 数目 为 5 个 ,输出 层 节点 数目 为 1 个 ; 
{"tansig', 'purelin'} 表 示 输 入 层 与 隐 含 层 之 间 的 神经 元 采用 tansig 传递 函数 , 隐 含 层 与 
输出 层 采用 purelin 函数 ;'trainlm' 表 示 选 择 的 训练 算法 。 
net= init (net);$ 初 始 化 网 络 ， 
net. trainParam. goa1=0. 001;$ 和 训练 精度 设 为 0. 001. 
net. trainParam. epochs=1000;$ 最 大 训练 步 数 为 1000。 
net. trainParam. show=10; T 10 步 一 显示 。 
[net,tr]=train (net, pn, tn) : % FHUAR. 


$ 以 下 部 分 为 测试 样本 检测 神经 网 络 。 

s=xlsread ('D:\liux\work\Exercise books\Artificial Neural Networks\NTD_fac - 
tor test. xls"); 

le xlsread ('D:\liux\work\Exercise books\Artificial Neural Networks\NTD_ 
test. xls' )3 

#% 分 别 获取 用 于 测试 网 络 的 NTD 的 影响 因素 及 出 生 缺 陷 人 数 , 并 赋值 给 5,1. 

sn-s'; 

1п=1'; 

kn=sim(net, sn) ;$% 根 据 训 练 好 的 网 络 及 输入 测试 向 量 进行 模拟 网 络 输出 。 

у= kn- lnis 求 出 测试 结果 与 真实 值 间 的 误 益 。 

me=mean (abs (kn- 1n) ) ; $2R HP 393 25. 

st-std (kn- 1n);$ 求 出 标准 差 。 





OD 右键 点 击 代 表 误 差 的 变量 ,选择 plot 项 即 可 获得 误差 图 (图 12. 5). 
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图 12.5 获取 误差 图 


(5) 在 左 侧 workspace 中 选中 代表 真实 值 、 预 测 值 .误差 所 代表 的 变量 ,右键 
鼠标 点 选 Plot as three series 获取 相应 的 线 图 (图 12.6), 


Eile Edit View Graphies Debug Desktop Үзө» Help 
Dg WM Rel BF со Directory: Ce Files\MATLABTi week М С) & 
Sortesta A Mee to Add Fi that’s Ner Ë 
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£10061 Апо double 0. 0955 
бро Selection) double -2.3223 
Seve hs double 0. 6707 
CNC double 0.0952 
Duplicate Curlin мек 0.7007 
Delete Delete double 
double 
double 
double 
double 
<1х1 struct» struct 
«191 deshle» rinde 


0. os? ? 
0. 0960 
-?. 2263 
0. $444 
~0. 8921 
1. 7242 


“1, 2661 


Le) ty 0. 6787 
— on | 71. 8346 


r мі Haste 
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lel’ ; -1. 8908 
kne sinnet, sn); 0. 0955 
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图 12.6 获取 预测 值 . 真 实 值 及 误差 线 图 
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4. 输出 


结果 输出 如 图 12. 7 一 图 12.9.2 12. 2 所 示 。 
通过 163 步 训 练 ,用 时 9s 精度 得 到 满足 。 


Progress 


Epoch: o ШШ зч] 1000 






Performance: 2.35 LE 5 00 ИИИ: _| 0.00100 
Gradi ent: 1.00 o | í 00-10 
т: 0.00100 1. 00et10 
Validation Checks: 0 6 


SETAE. SEE 


图 12.7 训练 过 程 


测试 样本 预测 的 平均 误差 为 0.0274; 
测试 样本 预测 的 标准 差 为 0. 0454. 


Performance (plotperfora) 


` Best Training Performance is NaN at epoch 163 


10° 


š 
5 
š 
5 
s 
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图 12.8 训练 误差 曲线 ( 隐 含 层 节点 数目 :5) 
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图 12.9 真实 值 . 预 测 值 及 其 误差 


表 12.2 部 分 地 区 NTD 发 生 真实 值 预 测 值 及 其 误差 


村 名 真实 NTD rate 预测 МТО rate 误差 
Жж 0. 0000 0. 0239 0. 0239 
[ 114 0. 0000 — 0. 0006 —0. 0006 
北 岭 头 0. 0606 0. 0322 — 0. 0284 
Eum 0. 0000 0. 0139 0. 0139 
Bus 0. 0294 0. 0322 0. 0028 
许 村 0. 0526 0. 0286 — 0. 0240 
东山 0. 0000 0. 0215 0. 0215 
FE 0. 0250 0. 0320 0. 0070 
pg 0. 0000 —0. 0013 —0. 0013 
KF 0. 0000 一 0. 0013 一 0. 0013 
南 良 马 0. 0000 0.0194 0. 0194 
核桃 树 湾 0. 0000 0. 0170 0. 0170 
ЫП 0. 1333 0. 0398 —0. 0935 
xn 0. 0000 0. 0183 0. 0183 
THER 0. 0481 0. 0322 —0. 0159 


0. 0000 0. 0139 0. 0139 
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续 表 

村 名 真实 NTD rate 预测 NTD_rate RE 
石 长 沟 0. 0000 一 0. 0012 一 0.0012 
[b 0. 0000 —0. 0013 —0. 0013 
Js neis 0. 0714 0. 0215 —0. 0499 

Gon 0. 0000 0. 0087 0. 0087 

ЕК 0. 0000 —0. 0013 —0. 0013 
石 驼 坪 0. 0000 一 0.0012 一 0. 0012 
PRE 0. 0000 —0. 0013 一 0. 0013 
ERE 0. 0625 0. 0398 —0. 0227 

йе} 0. 0278 0. 0398 0. 0120 

5. 解释 


i U MATLAB 中 的 tangsig 和 purelin RAE EARS Eê EZ e 
层 与 输出 层 之 间 的 传递 函数 。 网 络 的 输入 层 节点 数 由 影响 NTD_rate 因素 的 个 数 
确定 ,网 络 的 输出 层 节点 数 只 有 总 出 生 缺 陷 率 一 个 。 而 隐 含 层 节点 数 则 由 收敛 速 
率 和 测试 的 精度 来 确定 。 从 应 用 实例 可 知 ,只 需要 知道 影响 МТО rate 的 各 项 因 
素 及 其 数值 ,并 把 各 项 因素 的 数值 输入 所 建 的 BP 神经 网 络 模型 , 便 可 获得 各 村 出 
生 缺 陷 率 的 预测 值 。 


12.3 数学 模型 


BP 网 络 由 一 个 输入 层 、 一 个 输出 层 和 一 个 或 多 个 隐 含 层 组 成 ,网 络 结构 如 
图 12. 10 Bras. 






X, 





12.10 BP 网 络 结构 
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式 中 ,X= (x, ,为 神经 网 络 的 输入 ， Y= (у, ا‎ Va ) 为 神经 网 络 的 输出 ‚Ё 
们 对 应 的 神经 元 分 别 构成 网 络 的 输入 层 和 输出 层 ,其 余 为 隐 含 层 , 神 经 元 激励 函数 
可 选 为 线性 或 非 线性 连续 可 微 函 数 , 如 sigmoid 函数 





| (12.1) 
Eye 
或 tanh 函数 
f= ag DO (12. 2) 


式 中 ,参数 a 为 某 一 个 正 实数 ,a 越 大 ,f(z) 形状 越 陡 , 当 a жооў, f(z) 即 变 成 开 
关 函 数 。 对 于 一 个 三 层 ВР 网 Nm 二 {了 ",H",O'), 设 其 输入 层 17 仅 作 输入 转换 ， 
输出 层 ОЈ H" ,激励 函数 为 %z) 和 f(x) ,输入 层 神经 元 iE {1,…,m} 到 
隐 含 层 神经 元 j € {1,…,n} 的 连接 权 值 为 wi , 隐 含 层 j 到 输出 层 &E {1,… ,4) 的 
连接 权 值 为 rw ' 隐 含 导 和 输出 层 的 神经 元 的 值 分 别 为 6; 和 064, 则 这 个 三 层 神经 元 
输出 可 表示 为 


y, = H| Du ( S wz =0) ~6, | (12. 3) 


若 引入 神经 元 内 部 状态 *, 则 对 隐 含 层 神经 元 ; Жз, = 》 wz, —6,. ВА 
i=] 
经 元 j 的 输出 为 zx;== f(s;)。 
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现实 世界 中 的 信息 经 常 可 以 用 一 个 二 维 表格 来 表示 ,其 每 一 行 代表 着 现实 世 
界 中 的 一 个 空间 实体 , 比如 说 一 个 村 落 .一 个 国家 或 者 一 条 河流 等 ;每 一 列 都 代表 
着 空间 实体 的 某 种 信息 (属性 ), 比如 面积 , 周 长 、 人 口 .GDP 等 。 所 有 的 这 些 属性 
就 成 为 属性 集 (A)。 我 们 通常 将 所 有 要 研究 的 对 象 放 在 一 起 ,这 样 就 构成 了 一 个 
集合 U, 这 个 集合 也 称 作 论 域 ,也 就 是 说 信息 表 有 多 少 行 , 那 么 论 域 就 包含 多 少 个 
WR. 

从 认 知 科学 的 角度 来 看 ,在 某 种 意义 上 可 以 认为 ,知识 就 是 将 对 象 进行 分 类 的 
能 力 。 那 么 究竟 如 何 判断 两 个 对 象 是 否 可 以 区 分 呢 ? 在 经 典 集合 理论 中 ,如 果 两 
个 对 象 的 所 有 属性 值 都 相等 ,那么 这 两 个 对 象 就 是 不 可 区 分 的 ,可 以 验证 ,不 可 区 
分 关系 是 一 种 等 价 关 系 , 所 有 和 某 个 对 象 x 满足 不 可 区 分 关系 的 元 素 构成 一 个 等 
价 类 [zj]。 , 

然而 ,并 不 是 任何 一 个 对 象 都 能 被 当前 所 掌握 的 信息 完全 描述 ,而 且 由 于 各 
种 原因 ,信息 表 中 各 个 属性 值 也 可 能 存在 误差 ,这 样 就 会 造成 现 有 信息 无 法 对 目 
标 对 象 完全 分 类 。 例 如 图 13. 1 中 的 X 这 个 对 象 集合 ,可 能 代表 着 革 一 类 现象 ， 
我 们 通过 现 有 属性 对 论 域 进行 了 划分 。 但 是 和 不 仅 完全 包含 了 一 些 等 价 类 (下 
近似 ) ,而 且 还 有 一 些 等 价 类 和 X 相交 但 不 被 包含 (边界 ) ,这 两 者 都 可 以 对 X 进 
行 描述 (上 近似 )。 粗 米 集 就 是 使 用 被 描述 对 象 完 全 包含 和 相交 不 为 空 的 等 价 类 
来 对 其 进行 定义 的 ,是 对 经 典 集合 论 的 拓展 ,更 为 形式 化 的 定义 如 下 ， 

对 于 信息 系统 S=(U,A) ,假设 BCA AX CU, 我 们 可 以 通过 属性 集 B 
构造 X 的 上 下 近似 来 对 X 进行 近似 描述 ,下 上 近似 分 别 记 为 BX = llic X) 
和 有 BX 一 {Zz|[Lz]s 门 X 尖 让 。 下 近似 就 是 根据 属性 集 B, 所 有 确定 属于 X 的 元 素 所 
构成 的 集合 ,而 上 近似 是 根据 属性 集 B, 那 些 可 能 属于 X 的 元 素 所 构成 的 集合 。 
BNo(X) = BX — BX 被 称 为 X 的 B 边界 , 它 包 含 了 所 有 不 能 确定 是 否 必然 属于 A 
的 那些 元 素 。 
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图 13.1 粗糙 集 的 上 下 近似 和 边界 


13.2 案例 1: 出 生 缺 陷 
1. 数据 和 参数 


参数 :粗糙 集 是 完全 受 数据 驱动 的 ,不 需要 任何 参数 或 者 先 验 知识 。 

数据 :本 案例 选择 1998 一 2003 年 的 中 国 山西 和 顺 地 区 的 神经 管 畸 形 (NTD) 
出 生 缺陷 作为 案例 进行 练习 。 和 顺 地 区 一 共有 326 个 行政 村 ,其 中 315 个 行政 村 
在 这 6 年 内 有 新 生 儿 ,本 练习 针对 有 新 生 儿 出 生 的 村 落 进行 。 在 所 有 有 新 生 儿 出 
生 的 村 落 中 ,我 们 使 用 一 半 的 行政 村 作为 样本 数据 , 男 一 半 行政 村 作为 校 验 数据 。 
具体 各 个 属性 的 含义 如 表 13. 1 所 示 。 
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#13.1 属性 含义 

属性 名 称 属性 含义 
GDP 6 年 的 平均 GDP 
Doctor 行政 村 拥有 的 医生 数目 
Fruit 行政 村 生产 的 水 果 数 量 
Fertilizer атон A BI (RP B Nt 09 Е F34) (C 
Vegetable 行政 村 生产 的 蔬菜 数量 
Soil Type 行政 村 的 土壤 类 型 
Lithology Type 行政 村 的 岩 性 
Land cover Type 行政 村 的 主要 土地 覆盖 类 型 
Gradient 行政 村 的 坡度 
Watershed 行政 村 所 处 流域 
Road Buffer 行政 村 同 主干 道 的 距离 
River Buffer 行政 村 同 主要 河流 的 距离 
Faultage Buffer 行政 村 同 断 层 的 此 高 
Elevation 行政 村 的 高 程 
Neighbor 1998—2003 年 周围 有 NTD 病例 的 村 落 数 量 


Decision Attribute 


2. 软件 操作 


1998 一 2003 年 该 行政 村 是 否 有 NTD 病例 


(1) 使 用 的 软件 主要 有 两 个 ;Excel 2003 和 Rosetta 1. 4. 40. Rosetta, 软件 下 
Hb AL: http: //rosetta. Icb. uu. se/general. 
(2) 需要 将 文本 数据 导 人 Excel 中 ,然后 才能 再 导 人 到 Rosetta 中 进行 处 理 。 

首先 使 用 Excel 打开 数据 的 文本 文件 data. txt, 如 图 13. 2 所 示 。 然后 在 打开 











图 13.2 Excel 打开 文件 菜单 
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文件 对 话 框 的 文件 类 型 中 选择 文本 文件 *(* . pen; ж. txt; * .csv)”( 图 13.3)。 选 
中 文件 后 单 击 打开 ,出 现 图 13. 4, 然 后 点 击 完成 。 此 时 就 已 经 把 数据 使 用 下 xcel 打 
开 了 。 然 后 点 击 菜单 中 的 文件 .另存 为 ,出 现 图 13.5, 在 文件 类 型 中 选择 Mi- 
crosoft Office Excel Т.Е ( +. xls)。 选 择 合适 位 置 和 文件 名 ,存储 即 可 ,例子 中 
文件 被 存储 在 桌面 上 ,并 且 文 件 命名 为 data. xls。 然 后 在 Excel 中 新 建 两 个 工作 
XX sheet] 和 sheet2 ,然后 将 前 158 条 记录 拷贝 到 sheet1( 训 练 数据 ) ,后 157 条 记录 
拷贝 到 sheet2( 校 验 数据 ) ,最 后 关闭 Excel。 
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t [Text Files (*. 












Data Sources (*.odc; * udi; *.dsn; *.mdb; *.mdéss*. 
Access Databases (*.mdb; *.mde) 
Query Files (* ду; *.dqy; *.oqy; *.rqy) 
Lotus 1-2-3 Files (*.wk? 





图 13.3 Excel 打开 文件 对 话 框 


(3) 导 人 数据 到 Rosetta。 这 一 步 ,需要 将 Excel 格式 的 数据 导入 Rosetta Ж 
ер. с ЕШШ игл Rosetta 软件 ,然后 点 击 口 | 图 标 新 建 一 个 项 
目 。 接 着 在 国 和 uctwes 上 单 击 右键 ,在 弹出 的 菜单 中 选择 ODBC. . . ,如 图 13. 6 所 
示 。 然 后 在 弹出 的 对 话 框 中 单 击 Open database. . . (图 13. 7) ,弹出 的 对 话 框 中 选择 
机 融 数 据 源 , 并 在 列表 框 中 选择 Excel Files, 如 图 13. 8 所 示 , 然 后 单 击 确定 。 在 弹出 
的 对 话 框 中 选择 存放 数据 的 Excel 文件 ,然后 单 击 确定 , 回 到 Rosetta 的 ODBC import 
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Text Import Wizard Step 1 of 3 


The Text Wizard has determined that your data is Delimited, 
If this is correct, choose Next, or choose the data type that best describes your data. 
Original data type 
Choose the file type that best describes your data: 
Delimited | - Characters such as commas or tabs separate each field. 
O Fixed width - Fields are aligned in columns with spaces between each field, 


Start import at row: 1 $) File origin: 936 : Chinese Simplified (GB2312 м 


Preview of File C:\Documents and Settings\Administrator|  in\data, txt. 





图 13.4 Excel 打开 文本 文件 选项 
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| Save as type: feront Office Excel — (*.xls) 







Single File Web Page (*.mht; *.mhtmi) 
web Page Ph htm; *,htmD 
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File Edit View Window Help 
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图 13.6 Rosetta 导入 数据 
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MS Access Database 
Visio Database Samples 
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图 13.8 ODBC 源 的 选择 


对 话 框 ,如 图 13.9 所 示 , 可 以 看 到 已 经 读 人 了 这 个 文件 ,我 们 选择 sheetl ,并 且 只 
选择 需要 离散 化 的 属性 ,最 后 单 击 OK, 这 样 就 把 数据 导入 了 Rosetta 项 目 中 。 打 
开 后 的 状态 如 图 13. 10 所 示 , 可 以 通过 双击 国 对 数据 进行 浏览 。 





图 13.9 Rosetta 选择 Excel 的 表 和 属性 
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File Edit View Window Help 
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Friday, October 24, C A 
图 13.10 Rosetta 打开 数据 后 的 效果 


(4) 数据 的 离散 化 。 在 国 上 单 击 右键 ,移动 鼠标 到 Discretize( 离 散 化 ) 上 , 然 
后 在 弹出 的 菜单 上 单 击 Entropy/ MDL algorithm... ,弹出 了 MDL 算法 的 对 话 框 
(图 13. 11)。 选 择 Discretize and save cuts, 3 HR AIETE cuts 的 路 径 和 文件 名 , 然 
后 点 击 OK( 图 13. 12, 图 13. 13)。 离 散 化 完毕 后 点 击 Sheet] $ 旁边 的 “十 ”, 然 后 
双击 四 Sheeti$, discretized ,打开 离散 化 后 的 表 , 如 图 13.14 所 示 。 选 择 doctor 
这 一 列 ,选中 后 这 一 列 会 变 黑 , 同 时 按 下 Ctrl 键 和 c 键 ,然后 在 刚才 的 Excel 文件 
中 将 Sheet] 复制 为 一 个 新 的 sheet, 然后 在 这 个 新 的 sheet 中 选中 doctor 这 一 列 
的 第 一 个 数据 值 , 然 后 同时 按 下 Ctrl 键 和 v 键 。 这 样 离散 化 后 的 属性 就 被 粘贴 到 
这 个 表 中 。 按 照 同 样 的 方式 将 所 有 MLD 离散 化 后 的 属性 都 拷贝 到 这 个 sheet (P, 
这 样 我 们 就 生成 了 离散 化 后 的 决策 表 。 

(5) 约 简 。 这 一 步 首先 把 决策 表 按 照 上 述 导 人 sheetl 的 方式 导 人 到 Rosetta 
当中 ,只 不 过 这 次 选择 所 有 属性 都 要 导入 ,如 图 13. 15 所 示 。 导 入 后 可 以 右键 单 击 
导 人 的 决策 表 , 然 后 选择 Reduce, 然 后 选择 Genetic algorithm( 图 13. 16) ,在 弹出 
的 对 话 框 (图 13. 17) 中 点 击 OK, 得 到 约 简 结 果 。 可 以 双击 加 [8 name 来 查看 约 简 
结果 (图 13. 18) 。 
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图 13.11 离散 化 菜单 
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图 13.12 离散 化 选项 对 话 框 
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Ра 13.16 约 简 菜单 


(6) 生成 规则 ,在 国民 name 上 单 击 右键 ,在 弹出 的 菜单 中 选择 Generate 
rules( 图 13. 19)。 然 后 在 弹出 的 对 话 框 中 点 击 OK ,这 样 就 生成 了 规则 。 按 照 浏览 
数据 和 约 简 结果 的 方法 ,双击 同 Rakes 来 查看 规则 (图 13. 20). 

(7) 分 类 预测 。 首 先 我 们 要 将 所 有 的 校 验 数据 预 处 理 , 导 入 到 Rosetta tP, Hi 
处 理 方式 和 前 面 的 相同 ,只 有 一 处 不 同 ,就 是 离散 化 方法 选择 From file with 
cuts... (A) 13. 21)。 然 后 在 选项 中 选择 图 13. 13 中 保存 了 断 点 的 文件 ,生成 了 离 
散 化 结果 ,然后 按照 (4) 中 的 方法 将 原来 决策 表 中 的 原始 数据 替换 为 离散 化 后 的 
值 , 将 此 表 导 入 到 Rosetta 中 。 然 后 右键 单 击 导入 的 表 , 在 弹出 的 菜单 中 选择 
Classify... (图 13.22)。 在 弹出 的 对 话 框 中 选择 Log individual classification 
results to file, 并 且 在 下 面 的 文本 框 中 输入 文件 名 (图 13. 23)。 这 个 文件 里 存储 了 ， 
分 类 结果 。 

至 此 ,整个 粗糙 集 分 析 结 束 , 如 果 想 看 误差 矩阵 可 以 双击 图 No nane ,如 果 想 
查看 详细 的 每 个 村 落 被 分 为 哪 种 类 别 , 可 以 双击 国 classification result. log 查看 
(图 13.24). 
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图 13.18 约 简 结果 
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图 13. 19 规则 生成 菜单 
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10 [wtershed id(5) gradient code(1) neighbor([*, 2)) 
jit — [watershed id(5) gradient, code(1) neighbor([2, ж)) 
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13 Jwmtershed i4(2) tradient code(1) AND neighbor([2, ж)) 
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图 13.20 生成 的 规则 


3. 输出 


Rosetta 的 输出 主要 包括 约 简 结果 .规则 集 ` 预 测 结 果 ( 各 村 预测 文件 上 略 ) ,误差 
矩阵。 

(1) 约 简 结果 ,一 共有 两 组 约 简 结果 ,一 组 是 {Watershed， Gradient, Neigh 
bor} , 男 外 一 组 是 {Gradient, Landcover. Neighbor} , 
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图 13. 21 使 用 已 知 断 点 离散 化 菜单 
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图 13.22 分 类 菜单 
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图 13.23 ”分 类 对 话 框 
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图 13.21 最 终结 果 
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(2) 规则 集 ( 表 13. 2) 。 
表 13.2 Rosetta 得 到 的 规则 





.编号 规则 内 容 
1 Watershed(8) AND Gradient(1) AND Neighbor([ * ,2))=>decision(0) 
2 Watershed(5) AND Gradient(1) AND Neighbor([ ж ,2))= >decision(0) 
3 Gradient(1) AND Landcover( 33) AND Neighbor([ x ,2))= >decision(0) 
4 Gradient(1) AND Landcover(32) AND Neighbor([ * ,2)) = >decision(0) 
14 Gradient(2) AND Landcover(32) AND Neighbor([ * ,2)) = —decision(0) 
15 Gradient(1) AND Landcover(123) AND Neighbor([ 2, ж )) = —decisionC 1) 
16 Watershed(2) AND Gradient(1) AND Neighbor([ * ,2)) = —decision(0) 
17 Gradient(1) AND Landcover(21) AND Neighbor([ * ,2)) = =>decision(0) 
50 Watershed(4) AND Gradient(2) AND Neighbor([ * ,2))= 7decision(0) 





(3) 误差 矩 阵 ( 表 13.3). 
R133 ” 校 验 数据 的 误差 矩阵 


Reference Data 


Not Infected Infected Undefined Row Total 


Classified Data Not Infected 





Infected 
Undefined 
Column Total 
Producer’s Accuracy User’s Accuracy 
Infected =100% Infected =99.1% 
Not Infected =100% Not Infected —94. 094 


Overall Accuracy 97. 5% 


4. 解释 


本 案例 主要 步骤 包括 原始 数据 转换 、 约 简 、 规 则 生成 和 结果 预测 及 验证 4 个 步 
又 ,这 也 是 粗糙 集 解决 实际 问题 中 常用 的 一 种 处 理 模 式 。 通 过 数据 转换 可 以 使 数 
据 满足 粗糙 集 处 理 的 需要 , 约 简 去 除了 多 余 的 属性 ,规则 生成 为 推理 和 预测 提供 规 
则 库 , 结 果 预 测 和 验证 是 对 方法 和 结果 的 一 种 客观 检验 。 
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首先 ,使 用 离散 化 方法 对 连续 值 属性 进行 离散 化 。 比 如 Fruit, Fertilizer, Veg- 
etable, Road Buffer, River Buffer, Faultage Buffer, Elevation 都 使 用 了 MDL 的 离 
散 化 方法 。 然 而 不 同 的 属性 离散 化 方法 不 一 定 完全 相同 。 比 如 GDP 属性 ,需要 根 
据 国 际 标 准 , 将 其 转换 为 1970 美元 ,然后 按照 工业 化 程度 进行 离散 化 ,一 共 能 够 生 
成 2 个 断 点 3 个 类 别 ,分 别 为 尚未 进入 第 一 阶段 的 工业 化 (GDP 一 280 $ ) ,处 于 第 
一 阶段 的 工业 化 (280$ <GDP<560 $ ) 以 及 已 经 进入 第 二 阶段 工业 化 (560$ < 
GDP<1120 $ ) ,并 且 分 别 记 作 A.B 和 C ,类似 的 属性 还 有 Gradient, 在 本 练习 中 
提供 的 这 两 个 数据 已 经 进行 离散 化 ,所 以 不 需要 再 做 。 还 有 一 些 属性 已 经 是 离散 
值 , 但 是 也 进行 了 离散 化 ,以 达到 更 高 程度 的 概括 。 比 如 Neighbor 属性 , 通过 
MDL 离散 化 后 ,分 为 两 类 ,一 类 是 周围 有 NTD 病例 的 村 落 数 量 比 较 多 的 (Neigh- 
bor<2) , 另 一 类 是 周围 有 NTD 病例 的 村 落 数 量 比 较 少 的 (Neighbor 二 2)。 还 有 
一 些 属性 是 不 需要 离散 化 的 ,本 练习 数据 中 这 样 的 属性 有 Soil Type, Lithology 
Type, Land cover Type, Gradient 和 Watershed, 

其 次 ,需要 对 得 到 的 表 进 行 约 简 , 本 练习 使 用 的 约 简 方法 是 基因 算法 ,还 有 很 
多 其 他 方法 可 以 进行 约 简 , 最 后 的 约 简 结果 是 {watershed, gradient, neighbor} 或 
者 {gradient,landcover,neighbor}。 也 就 是 说 ,这 两 组 属性 中 的 任何 一 组 都 和 所 有 
属性 对 村 落 的 划分 是 相同 的 。 这 样 通过 约 简 ,我 们 可 以 压缩 掉 80% 的 属性 ,大 大 
降低 了 系统 复杂 度 。 这 两 组 约 简 都 有 Neighbor 属性 ,这 也 说 明 NTD 的 分 布 是 空 
间 聚 集 的 ,通过 计算 其 Moran’s 1 指数 得 到 其 值 为 0.06,Z score 28 6. 68, RA 1⁄4 
的 可 能 性 不 是 空间 聚集 的 。 

然后 ,根据 这 两 个 约 简 , 可 以 生成 50 条 规则 。 使 用 这 些 对 校 验 样本 进行 预测 ， 
并 且 对 其 做 误差 矩阵 ( 表 13. 3)。 可 以 看 到 ,生产 者 精度 达到 了 100%, 有 病例 和 无 
病例 情况 的 用 户 精度 分 别 达到 了 99. 1% 和 94.0%, 总 体 精度 也 达到 了 97.5%. 
这 些 都 说 明了 粗糙 集 对 МТО 预测 的 准确 性 ,也 说 明了 粗糙 集 处 理 现实 问题 的 
能 力 。 


13.3 案例 2: 交 通 流 预 测 


1. 数据 


本 实验 采用 的 数据 为 交通 流 实时 状态 数据 ,路 口 及 路 段 室 间 位 置 关 系 示 意见 
图 11. 23, 各 个 属性 字段 的 值 及 含义 如 表 11. 1 一 表 11.2 所 示 。 


2. HA 


该 实验 所 导 人 的 数据 表 中 ,条 件 属性 如 表 11. 2 中 所 示 序 号 为 1 一 33 的 路 段 在 
20084E3 H 3 HF 7 į Ctimeld 为 84) 至 晚 7 点 (timeld 为 228) 的 交通 流 状 态 , 决 
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策 属 性 为 序号 为 34 的 路 段 , 即 R-184(Decision) 在 2008 年 3 月 3 日 早 7:05(time- 
Id 为 85) Ж 7 ;05(timeld 为 229) 的 交通 流 状态 。 本 实验 中 ,根据 各 路 口 各 路 段 
既成 的 时 空 相关 性 ,利用 特定 区 域内 33 个 路 段 历史 时 刻 的 交通 流 状态 对 某 特 定 路 
段 ( 第 34 个 ) 未 来 5min 的 交通 流 状态 进行 预测 和 推断 。 


3. 软件 使 用 
参见 案例 1(13. 2 3%). 
4. 输出 


输出 主要 包括 约 简 结果 ,规则 集 、 分 类 精度 及 混 消 矩阵 。 

(1) 约 简 结果 (reduct) 。 如 表 13.4 中 所 示 , length 代表 约 简 结果 中 条 件 属性 
的 个 数 ,support 指 默认 的 约 简 参 数 。 

(2) 规则 集 (rule)( 表 13.5), 


表 13.4 基于 训练 数据 的 约 简 结果 





Reduct support length 
(R-1329, R-2315) 100 2 
(R1373, R-1329) 100 2 
(R1329, R-1329) 100 2 
(R1306, R-1329] 100 2 
{R1329,R1373} 100 2 
{R183,R-1329} 100 2 


表 13.5 基于 训练 数据 约 简 后 生成 的 规则 
AX dx Hm AM nm 





ы лл HE HE HE RE ш 
1 R-1306(B) AND R-1328(B) AND R-1329(B)=>decision(C) 21 21 1 0.18 0. 25 
2 К381‹В) AND R-130(C) AND R-1306(B)=>decision(C) 20 20 1 0.17 0.24 
3 R1055€C) AND R1306(C) AND R-66( B) = >decision(C) 19 19 1 0.16 0. 23 
4 К1055(С) AND R1306(C) AND R-130(C)=>decision(C) 18 18 1 0.16 0.21 
5 R103(C) AND R183(C) AND R1055(C) = >decision(C) 18 18 1 0.16 0.21 





注 ; 左 覆盖 度 == 满 足 特定 约 简 规 则 的 样本 数 /所 有 训练 样本 数 ; 右 覆 盖 度 = 满足 特定 约 简 规则 的 样本 数 / 
具有 某 种 相同 决策 属性 的 训练 样本 数 :, 右 杜 羡 精度 一 右 支 持 度 / 左 支持 度 ,R-1306( 了 -缓行 ) AND R-1328 
(BRT) AND R-1329( 有 -缓行 ) 一 二 decision(C- 畅 通 ) 一 一 该 条 规则 中 3 个 特定 的 条 件 属 性 推出 某 种 特定 类 
别 的 决策 属性 ， 
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(3) 分 类 精度 及 混淆 矩阵 (accuracy and confusion matrix) (图 13. 25). 


B:Venerciselrough set\object releted\classi fication object related 
40.171465) Undefined m 154 rule(s) 


(0.020867) А (2) 26 rules! 

"B (3) 

* € (0) 

= (0.813084) C (0) 193 rules} 
(0.185877) Undefined (1) 103 rule(s) 
(0.001038) A (2) 1 rule(s) 

°c 10 


ijt o coe odium 
wetu i M SSS 





图 13.25 ”分 类 结果 精度 及 混 消 和 矩阵 


由 表 13. 5 约 简 后 的 规则 可 以 看 出 ,116 个 训练 样本 (Timeld84-199) 的 条 件 属 
性 由 原来 的 33 个 约 简 为 1 一 5 个 不 等 ,保留 了 数据 的 核心 属性 ,也 就 是 数据 知识 最 
本 质 的 特性 ;经 属性 约 简 后 产生 的 知识 规则 也 保留 了 针对 核心 属性 的 有 效 知 识 规 
则 。 数 据 从 规模 和 数量 上 都 得 到 了 很 好 的 挖掘 ,得 到 了 大 基数 据 中 最 为 关键 的 知 
识 , 为 路 段 交 通 流 状 态 的 判断 提供 了 简洁 而 直接 的 知识 表达 。 如 “R-1306 (了 -组 
fT) AND R-1328(B- 缓 行 ) AND R-1329(B- 缓 行 ) 王 二 decision(C- 畅 通 )" 可 以 解 
释 为 : 当 三 个 路 段 R-1306 、R-1328 Ж R-1329 的 交通 流 处 于 缓行 状态 时 ,可 以 推断 
出 预测 路 段 R-184(Decision) 的 交通 流 很 大 程度 上 将 处 于 畅通 状态 。 将 29 个 测试 
样本 数据 导入 Rosetta, 利 用 前 面 116 个 训练 样本 数据 约 简 得 到 的 规则 对 29 个 测 
试 样本 (Timeld200-228) 进 行 分 类 预测 (Classify) ,从 而 得 到 分 类 结果 及 精度 ,如 图 
13. 25 所 示 预 测 总 体 精度 可 达 75. 86% , 混 清和 矩阵 中 “0 代表 “C- 畅 通 ”, “2 代表 “A- 
拥堵 "3 代表 “了 B- 缓 行 ", 不 难看 出 该 分 类 算法 对 本 次 实验 中 C 类 别 交 通 流 状态 
预测 精度 是 最 高 的 ,为 100%(29 个 测试 数据 中 22 个 C 类 别 ), 但 是 对 A、B 类 别 交 
通 流 状态 预测 精度 却 为 0, 这 和 原始 的 训练 数据 和 测试 数据 本 身 的 规模 (A、B、C 
类 别 各 自 的 样本 数 ) 和 值 域 有 很 大 关系 ,同时 也 和 分 类 器 的 分 类 能 力 .优越 性 有 关 ， 
因此 要 提高 预测 的 精度 ,还 必须 改进 分 类 算法 ,或 者 是 得 到 涵盖 更 为 丰富 先 验 知识 
的 训练 集 和 测试 集 数 据 。 
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13.4 4} Of v Fë 


整个 粗糙 集 分 析 过 程 可 以 分 为 4 个 步骤 (图 13. 260 :中 根据 训练 数据 建立 决 
策 信息 系统 (决策 信息 系统 就 是 信息 系统 中 有 决策 属性 D, 也 就 是 S=(U,AU 
D)); 思 对 条 件 属性 进行 约 简 ;@@ 根 据 约 简 生成 规则 ;四 使 用 规则 对 未 知 对 象 进行 
预测 并 且 进 行 误差 分 析 。 首 先 ,原始 数据 需要 转换 成 为 决策 信息 系统 。 这 一 步 非 
常 重要 ,因为 原始 数据 一 般 而 言 是 不 完备 的 ,有 噪声 的 并 且 是 不 一 致 的 。 这 就 需要 
综合 使 用 各 种 数据 预 处 理 方 法 对 数据 进行 处 理 。 另 外 ,这 些 数据 往往 不 一 定 是 以 
决策 表 的 形式 提供 的 ,这 就 需要 将 数据 转换 为 决策 表 的 形式 ,而 且 通 常 粗糙 集 处 理 
的 是 离散 值 属 性 ,对 于 连续 值 属 性 需要 进行 离散 化 处 理 ,而 对 于 离散 化 值 有 时 也 需 
要 将 离散 值 进 行 抽象 得 到 更 高 抽象 层次 的 离散 值 , 这 样 才 能 使 数据 符合 粗糙 集 分 
析 方 法 的 要 求 。 此 外 ,地 理 数据 通常 是 以 地 图 的 形式 给 出 ,有 些 属 性 是 不 能 够 直接 
获取 的 ,需要 根据 地 图 计算 得 到 。 其 次 ,并 不 是 每 个 决策 信息 系统 中 的 条 件 属性 都 . 
和 决策 属性 密切 相关 ,因此 需要 对 条 件 属性 进行 属性 提取 。 粗 糙 集 理论 中 使 用 约 





图 13. 26 ”粗糙 集 预 测 模型 
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简 方 法 进行 属性 提取 , 相 比 较 别 的 属性 提取 方法 而 言 , 约 简 是 完全 数据 驱动 的 ,不 
需要 任何 的 先 验 知识 ,但 是 它 保证 了 决策 信息 系统 的 分 类 能 力 不 变 ,其 形式 化 描述 
ШЕ: ' 
给 定 一 个 信息 系统 S=(U,A), 属 性 集 A 的 约 简 B 是 A 的 一 个 满足 LzJ = 
[els 最 小 子 集 。 换 句 话 说 , 约 简 是 保持 属性 集 A 对 论 域 划分 能 力 的 最 小 子 集 , 因 
此 有 着 和 属性 集 A 同样 的 分 类 能 力 。 

通常 约 简 可 能 会 生成 几 组 约 简 结果 ,针对 每 个 约 简 结 果 可 以 通过 对 决策 表 进 
行 描述 生成 一 组 决策 规则 。 最 后 ,我 们 可 以 使 用 这 些 规 则 对 未 知 对 象 根据 条 件 属 
性 进行 分 类 预测 并 且 对 结果 进行 验证 。 需 要 注意 的 是 ,未 知 对 象 也 要 经 过 和 训练 
对 象 同样 的 预 处 理 过 程 。 其 中 离散 化 要 使 用 训练 对 象 的 分 割 点 进行 离散 化 。 
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14.1 J 理 


Vapnik 和 Chervonenkis(1971) 提 出 了 VC 维 理论 ,Vapnik(1995) 完 整地 提出 
了 支持 向 量 机 方法 。 

支持 向 量 机 (support vector machines, SVMD) 方 法 是 根据 统计 学 理论 提出 的 
一 种 机 器 学 习 方法 , 它 集 成 了 最 大 间隔 超 平面 .Mercer 核 . 凸 二 次 规划 和 松弛 变量 
等 多 项 技术 。 支 持 向 量 机 的 方法 根据 结构 风险 最 小 化 原则 , 较 好 地 解决 了 小 样本 、 
非 线性 、 高 维 数 、 局 部 极 小 点 等 实际 问题 。 支 持 向 量 机 的 基本 思想 是 把 输入 空间 的 
样本 通过 非 线 性 变换 映射 到 高 维特 征 空间 ,然后 在 特征 空间 中 求 取 把 样本 线性 分 
开 的 最 优 分 类 面 (图 14.1). 





图 14.1 二 维 空间 最 优 分 割 超 平面 示意 图 


14.2 £ Й 
1. 目的 


本 实验 欲 通过 支持 向 量 机 方法 对 和 顺 县 神经 管 畸形 出 生 缺 陷 数据 进行 训练 及 
验证 ,最 终 达到 对 出 生 缺 陷 率 的 分 类 预测 。 


2， 数 据 
数据 采用 和 上 顺 县 神经 管 畸形 出 生 缺 陷 及 影响 因子 的 数据 ,包括 :土壤 类 型 . 河 
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流 缓冲 区 .道路 缓冲 区 ,坡度 .岩石 类 型 .断层 缓冲 ,高 度 , 医 生 数量 .化肥 数 量 pik 
人 ,农药 数量 .蔬菜 数量 (soil _code,riverbuffer roadbuffer, gradient code, litholo- 
gy. code, faultagebuffer, elevation(m) , doctor, fertilizer, net-income, pestcide, veg- 
etable) ЖН ЕЮ (NTD. rate) ,在 求 出 生 缺 陷 率 的 过 程 中 将 出 生 人 数 小 于 5 
的 村 剔除 。 将 出 生 缺 陷 率 分 为 :0、 二 0 并 且 一 0.08、 二 0. 08 三 类 , 即 1 = FEMI AE Bh 
陷 、2 王 出 生 缺 陷 率 不 高 .3 一 出 生 缺 陷 高 发 。 

支持 向 量 机 算法 无 法 直接 处 理 分 类 型 变量 (categorical variables) ,所 以 需要 
先 对 分 类 型 变量 进行 处 理 。 通 常 的 做 法 是 引 人 哑 变量 ,如 变量 岩石 类 型 编号 (li- 
thology_code) 共 有 7 类 (1、2.3.4.5.6.7), 引 入 旺 变 量 后 ,用 lithologyl litholo- 
'gy2 lithology3 lithology4 \lithology5 ,lithology6 共同 表示 编号 为 1.2.3.4.5.6.7 
Jt 7 类 岩石 类 型 , 见 表 14.1, 


Ж 14.1 X4 lithology code 变量 引入 旺 变 量 
变换 前 变换 后 
lithology_code lithology 1 lithology 3 lithology 4 lithology 5 | lithology 6 


0 





1 


0 


0 


LA 
|- a ° 
az 52. 


同 理 对 分 类 型 变量 soil code 引 人 哑 变量 进行 表示 。 通 常 对 有 n 类 的 分 类 型 
变量 将 引入 ”一 1 个 哑 变 量 表示 。 

将 符合 Libsvm 软件 格式 要 求 的 数据 (处 理 方式 详 见 输入 及 软件 使 用 ) 分 为 
NTD_train(200 条 样本 数据 ) 和 NTD_test(70 条 样本 数据 ) 两 类 。 


3. 软件 使 用 及 输入 


1) 软件 和 数据 准备 

(1) 软件 Python, Gnuplot 和 libsvm, db hE: http://www. csie. ntu. edu. tw/~ 
cjlin/libsvm/ , FormatDatalibsvm. xls 文件 下 载 地 址 :http://old. blog. edu. cn/user2/ 
huangbo929/archives/2007/1863154. shtml. 


1 
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(2) 打开 FormatDatalibsvm. xls 将 经 哑 变 量变 换 后 的 影响 因子 数据 拷 人 ,对 
数据 采用 宏 处 理 ,使 数据 转化 成 符合 Libsvm 软件 要 求 的 格式 (图 14. 2、 图 14. 3). 





) нутта) TU UT IN. 
| Чат 1284.12 
wem o 1298.09 


| ЕРТ 1427 68 


1283.62 
1300 
1274.59 
1238.97 
1300 
1500 
1200 
1300 
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PA 14.3 选择 FormatDataToLibsvm 
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(3) 将 分 类 类 型 插 人 首 行 ( 图 14. 4). 





图 14.4 插入 类 型 变量 


(4) 将 FormatDatalibsvm 文件 中 的 数据 拷贝 ,并 分 别 保存 至 文件 NTD_ 
train. txt(200 条 样本 数据 ) 和 NTD_test. txt(70 条 样本 数据 )。 

2) 进行 分 类 训练 并 对 测试 样本 进行 预测 分 类 

(1) 安装 Windows 版 本 的 Python .绘图 软件 Gnuplot 和 libsvm 工具 包 。 

(2) 修改 easy. ру. grid. py 文件 中 svmscale exe, svmtrain, exe, svmpredict_ 
exe,gnuplot exe,grid py 路 径 , 使 路 径 正确 指向 指定 文件 (图 14. 5), 

(3) 将 文件 svm-predict. exe, NTD_train. txt, NTD_test. txt # 9] easy. py 所 
在 文件 夹 中 。 

(4) 打开 DOS 界面 ,并 将 默认 路 径 改 为 easy. py 文件 所 在 路 径 ( 图 14. 6). 

(5) 在 DOS 窗口 中 输入 C: \ Python26 \ Python easy. ру NTD_ train. txt 
МТО test. txt(C;\Python26 4 Python. exe 文件 所 在 文件 夹 路 径 ) ,运行 即 可 得 到 
输出 结果 。 


easy. py D:\liux\work\Ezercise books\SVE\tool\libsva~?. 88\tools\ensy. py 


Bun Optiens Vindews Help 


sys 
оз 
subprocess 
len(sy2.argv) 
print 


gnuplot 


is_wind2 = (sys.piatform == 





13 vin32: 

svmecale exe 
svmtrain exe 
svepredict ех 


grid py = 


svmscale 
svmt rein. xe 
svmpredic 
gnuplot ex 


grid py * 





图 14. 禾 改 文件 中 的 默认 路 径 


Admini 


boob SUM Моо 1х1 





图 14.6 DOS BEH FF FÎ 


4. 输出 


结果 输出 如 图 14. 7.8 14. 8, #2 14. 2 所 示 。 


training data... 


Lidation - - 


q= . 0001220703125 


* TM 
model: NTD_train.txt.mode l 
testing data.. 
68.5714 48/770) Ccla ificat 


prediction: NTD test.txt.predict 





图 14.7 结果 输出 























МТО train.txt.scale "5 
71 — 
Best log2(C)=11 log2(gamma)=-13 accuracy=71.5% 40 < 
C=2048 gamma-0.0001220703125 70 
69.5 
s " -一 
上 14 
= -12 
- 10 
L d-8 = 
= 
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图 14.8 搜 4 最 优 Cost 和 Gamma 
表 14.2 部 分 地 区 NTD 发 生 率 真实 分 类 与 预测 分 类 
+ 名 真实 分 类 预测 分 类 村 名 真实 分 类 жн X 


HARK l l 北村 1 1 


下 术 瓜 l l 西 马 泉 | l 
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ж 


EK 
真实 分 类 预测 分 类 村 名 真实 分 类 预测 分 类 
河 底 1 1 хуз 1 2 
mH 2 2 东 窑 沟 3 2 
RR 2 2 后 石门 沟 1 1 
Кій 2 2 б 2 1 
Fi 2 2 白 珍 2 2 
任 元 汗 2 2 会 里 2 2 
“жу 1 2 阳 坡 庄 1 2 
九 京 1 l mu 2 1 
HEWN 2 2 前 南 窑 2 1 
ЗЕН 2 2 后 南 容 2 2 
后 沟 1 1 太阳 坡 1 1 
河北 3 1 wey 2 1 





输出 文件 还 包括 :已 转换 到 [一 1,1] 的 样本 数据 文件 NTD_train. txt. scale 和 
NTD test. txt. scale 以 及 分 类 模型 NTD_train. txt. model, 


5. 解释 


在 分 类 的 训练 过 程 中 ,首先 调用 svmscale. exe 来 变换 原始 样本 向 量 , 之 后 遍 
历 预 设 的 c( Cost) FI g(Gamma) 和 参数 ,调用 svmtrain. exe 来 计算 c р 参数 的 精 
度 , 最 后 获得 一 个 最 好 的 精度 ,根据 对 应 的 c 和 g 计算 一 个 模型 。 

通过 实验 结果 可 以 看 出 , 当 RBF BE eR CAS S 0 Cost 和 Gamma НХ 2048 和 
0. 00012207 时 ,其 取得 最 好 的 分 类 性 能 ,准确 率 达 到 71. 5% ,检验 样本 的 准确 率 达 
到 68. 5714% (48/70). 


14.3 数学 模型 


支持 向 量 机 是 从 线性 可 分 情况 下 的 最 优 分 类 面 发 展 而 来 的 ,所 谓 最 优 分 类 面 

就 是 要 求 分 类 面 不 但 能 将 两 类 正确 分 开 ,而 且 使 分 类 间隔 最 大 。 设 分 类 面 的 方程 

为 zx， 也 十 5 一 0, 这 里 wb 是 待 求 参 数 使 得 对 线性 可 分 的 样本 集 (zi,y ),i 一 1,2， 

ER yE( 十 1, 一 1) en 为 第 i 个 样本 的 解释 变量 ,y, 为 第 i 个 样本 的 决策 
变量 ,满足 

y [Cw * z) +b]—120, ¿=1,2,--,n (14.1) 

此 时 分 类 间隔 p= 2/ || те || ,使 间隔 最 大 等 价 于 使 | w || 2 最 小 。 使 上 式 等 号 
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成 立 的 样本 叫做 支持 向 量 ,满足 条 件 式 (14. 1) 且 使 (1/2) || w || 最 小 的 分 类 面 就 
叫做 最 优 分 类 面 。 使 用 Lagrange 乘 子 方法 解决 这 个 约束 最 优 问题 , 即 在 约束 条 件 
У)" зау, = 0 A а:220(а, X Lagrange 梯子 ,i 一 1,…,n) 下 求解 下 列 目标 函数 
Qa) MAAK. 


Qa) = Sa; - +> азоб . z) (14.2) 
Pm] у=] 


i=l 


这 是 一 个 不 等 式 约束 下 二 次 函数 寻 优 的 问题 ,存在 唯一 解 。A; 不 为 零 的 解 所 
对 应 的 样本 就 是 支持 向 量 。 解 上 述 问题 后 得 到 的 最 优 决策 函数 是 


f(xy) = sent УРУЯ * т) +6) (14. 3) 
i=] 
在 线性 不 可 分 的 情况 下 ,可 以 在 式 (14. 1) 中 增加 一 个 松弛 项 & 宇 0, 成 为 
yL[Ge* x) +b] —1—8220, i—1,.2,*,n (14. 4) 
(we) = wil? +) De) (14. 5) 
2 imt 


将 目标 改 为 求 式 (14. SAAD A 0a C, Ker C 为 惩罚 因子 , 即 综合 考虑 
最 小 错 分 样本 和 最 大 分 类 间隔 ,这 样 就 得 到 广义 最 优 分 类 面 。 

对 于 非 线 性 问题 ,只 需要 将 输入 向 基 非 线性 映射 到 一 个 更 高 维 的 特征 空间 , 然 
后 再 构造 最 优 分 类 超 平 面 。 我 们 不 必 知 道具 体 的 映射 函数 $(xi) 的 表达 式 , 因 为 
在 这 个 高 维 空间 中 只 涉及 内 积 运 算 , 若 K Gem) = glr) * pCa, WER KG, sa) 
为 内 核 阴 数 ,一 个 函数 是 内 核 函 数 的 条 件 由 Mercer 定理 给 出 。 而 相应 的 最 优 决 策 
函数 变 为 


f(z) = sgn[ ЗР ete ) (14. 6) 
i=] 


BISH ”粒子 群 优化 算法 
15.1 原 ЖШ 


粒子 群 优 化 算法 (particle swarm optimization, PSO) fH Kennedy 和 Eberhart 
于 1995 年 提出 ,该 算法 模拟 鸟 群 . 鱼 群 . 蜂 群 等 动物 群体 现 食 的 行为 ,通过 个 体 之 
间 的 相互 协作 使 群体 达到 最 优 目 的 ,是 一 种 基于 群 智 能 (swarm intelligence, SD 的 
优化 方法 (Kennedy and Eberhart,2001)。 同 遗传 算法 类 似 , 它 也 是 一 种 基于 群体 
逮 代 的 优化 算法 ,系统 由 一 群 粒 子 (particle) 组 成 ,初始 化 为 一 组 随机 解 ,粒子 群 在 
问题 空间 中 追随 群体 最 优 粒 子 进行 协同 搜索 , 它 没有 遗传 算法 的 交叉 、 变 异 等 操 
作 。 与 遗传 算法 不 同 的 是 它 更 强调 群体 内 部 个 体 之 间 的 协同 与 合作 ,而 不 是 达尔 

文 的 “ 适 者 生存 "理论 (Eberhart and Shi,1998) 。 

PSO 算法 也 是 一 种 启发 式 的 优化 计算 方法 ,其 最 大 的 优点 在 于 (Kennedy and 
Eberhart, 2001); 

(1) 易于 描述 ,易于 理解 ; 

(2) 对 优化 问题 定义 的 连续 性 无 特殊 要 求 ; 

(3) 只 有 非常 少 的 参数 需要 调整 

(4) 算法 实现 简单 ,速度 快 ; 

(5) 相对 其 他 演化 算法 而 言 , 只 需要 较 小 的 演化 群体 ; 

(6) 算法 易于 收敛 , 相 比 其 他 演化 算法 ,只 需要 较 少 的 评价 函数 计算 次 数 就 可 
达到 收敛 ; 

(7) 无 集中 控制 约束 ,不 会 因 个 体 的 故障 影响 整个 问题 的 求解 ,确保 了 系统 具 
备 很 强 的 鲁 棒 性 。 

在 PSO 中 ,如 果 我 们 把 一 个 优化 问题 看 作 是 在 空中 更 食 的 鸟 群 ,那么 “食物 ” 
就 是 优化 问题 的 最 优 解 ,而 在 空中 飞行 的 每 一 只 砚 食 的 * 鸟 "就 是 PSO 算法 在 解 空 
间 中 进行 搜索 的 一 个 “粒子 ”。 粒 子 的 概念 是 一 个 折 中 的 选择 , 它 只 有 速度 和 加 速 
度 用 于 调整 本 身 的 状态 ,没有 质量 和 体积 。“ 群 "(swam) 的 概念 来 自 于 人 工 生命 。 
因此 PSO 算法 也 可 看 作 是 对 简化 了 的 社会 模型 的 模拟 ， 这 其 中 最 重要 的 是 社会 群 
体 中 的 信息 共享 机 制 , 这 是 推动 算法 的 主要 机 制 。 

粒子 在 搜索 空间 中 以 一 定 的 速度 飞行 ,这 个 速度 根据 它 本 身 的 飞行 经 验 和 同 
伴 的 飞行 经 验 来 动态 调整 。 所 有 的 粒子 都 有 一 个 被 目标 函数 决定 的 适应 值 
(fitness value), 这 个 适应 值 用 于 评价 粒子 的 “好 坏 ” 程 度 。 每 个 粒子 都 知道 自己 到 
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目前 为 止 发 现 的 最 好 位 置 (particle best, 记 为 pbest) 和 当前 的 位 置 ,pbest 就 是 粒 
子 本 身 找到 的 最 优 解 ,这 个 可 以 看 作 是 粒子 自己 的 飞行 经 验 。 除 此 之 外 ,每 个 粒子 
还 知道 到 目前 为 止 整个 群体 中 所 有 粒子 发 现 的 最 好 位 置 (global best, 记 为 
gbest) ,gbest 是 在 pbest 中 的 最 好 值 , 即 是 全 局 最 优 解 ,这 个 可 以 看 作 是 整个 群体 
的 经 验 。 每 个 粒子 使 用 下 列 信息 改变 自己 的 当前 位 置 ， 

(1) 当前 位 置 ; 

(2) 当前 速度 ; 

(3) 当前 位 置 与 自己 最 好 位 置 之 间 的 距离 ; 

(4) 当前 位 置 与 群体 最 好 位 置 之 间 的 距离 。 

优化 搜索 正 是 在 由 这 样 一 群 随机 初始 化 形成 的 粒子 组 成 的 一 个 种 群 中 ,以 选 
代 的 方式 进行 的 。 


15.2 £ H 
1. 目的 


本 实验 和 欲 通过 粒子 群 方法 对 和 顺 县 神经 管 畸形 出 生 缺 陷 (NTD) 数 据 进行 训 
练 及 验证 ,最 终 达 到 对 出 生 缺 陷 率 的 分 类 预测 。 


2. 数据 ,参数 :项 及 格式 


数据 采用 和 顺 县 神经 管 畸形 出 生 缺 陷 影响 因子 数据 ,包括 :土壤 类 型 .河流 组 
冲 区 .道路 缓冲 区 ,流域 ,坡度 .岩石 类 型 .断层 缓冲 .土地 杆 盖 高度. 医生 数量 、 化 
ЛЕ ОЕ . 净 收 入 ,农药 数量 .蔬菜 数量 .水 果 数 量 (soil code, riverbuffer, roadbuffer, 
watershed ID, gradient_code, lithology_code, faultagebuffer, landcover, elevation 
(m) , doctor, fertilizer, net — income, pestcide, vegetable, fruit) 以 及 出 生 缺 陷 率 
(NTD_rate) 数 据 ,在 求 出 生 缺 陷 率 的 过 程 中 将 出 生 人 数 小 于 5 的 村 剔除 。 将 出 生 
缺陷 率 分 为 :0、 二 0 并 且 一 0. 08,70. 08 三 类 , 即 1 王 无 出 生 缺 陷 、 2 三 出 生 缺 陷 率 
不 高 .3 三 出 生 缺 陷 高 发 三 类 。 

将 符合 PSO/ACO2 1. 0 软件 格式 要 求 的 数据 分 为 NTD_train(200 条 样本 数 
据 , 用 于 训练 生成 分 类 方法 ) 和 NTD_test 两 类 (70 条 样本 数据 ,用 于 检验 分 类 方 
法 )。 


3. 软件 使 用 及 输入 


粒子 群 分 类 工具 PSO/ACO2 下 载 地 址 : http; //sourceforge. net/projects/ 
psoaco2/ ;Java 程序 运行 环境 所 需 安装 程序 Java SE Runtime Environment би11 
下 载 地 址 ;http://java. sun. com/javase/downloads/index. jsp; 本 实验 中 对 数据 进 
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行 处 理 所 需 工具 weka-3-5-7. exe F RH ht. http://www. cs. waikato. ac. nz/ml/ 
weka/ 。 

1) 数据 准备 

D 打开 记录 有 实验 所 需 数据 的 . xls 文件 ,并 将 其 另存 为 . csv 文件 (图 15.1), 
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图 15.1 将 数据 保存 为 . csv 格式 
(2) 打开 WEKA 软件 ,并 进入 Explorer 模块 (图 15.2), 


Teale Visualisation jalp 





[Н 15.2 МЕКА 主 界面 
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(3) 在 МЕКА 中 打开 实验 数据 .csv 文件 ,另存 为 .arff 文件 (图 15.3 — 


图 15.5), 
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图 15.3 点 击 打开 文件 选项 
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图 15.4 选择 所 需 转换 文件 
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图 15.5 保存 为 .arff 文件 


(4) 修改 soil code, gradient_code, lithology_code, landcover. NTDB rate 为 
分 类 变量 (在 上 步 格式 转换 过 程 中 ,所 有 变量 被 统一 按照 数值 类 型 处 理 )， 首先 用 
UltraEdit 等 文本 编辑 工具 将 arff 文件 打开 ， 然后 按照 下 图 格式 修改 变量 类 型 ( 变 
量 名 后 中 括号 括 起 的 为 变量 种 类 )( 图 15.6). 


Barrribute Soil_code (3,4,5,7,20,21,22,23,27) 
Battribute riverbuffer numeric 

@attribute rosdbuffer numeric 

Ratrribute watershed ID numeric . 

Batcribute gradient code (1,2,3,5; 

Battribute lithology code (1,2,3,4,5,6,7! 

@actribute faultagebuffer numeric 

Gatcribute landcover (21,22,23,24,31,32, 33,46,52,121,122, 123,124) 
Battribute elevationim) numeric 

Battribute doctor numeric 

Bactribute fertilizer numeric 

@attribute fruit numeric 

Batrribute net-income numeric 

@attribute pestcide numeric 

@attribute vegetable numeric 

Battribure brith popu numeric 

Battribute NTD rate (1,2,3) 


Adata 
7,2,8,1,1,6,14,33,1310.55, 1. 125,38.33,0,1193, 1. 333333,45.0375,1 
6, 1,1, 6, 14, 33, 1300, 0.375, 25,0,1182.375,0.416667,31. 6125,1 
/1,1,5,14,33,1308.92,0.875,45,0,1215.25,0. 75,40, 1875,2 
.1,1,5,12,22,1300,2.625,45,0,1153, 625,1.666667, 40. pai 1 
ahs 1, e 14,121,1300,4,21.67,0,1329.25, 1. 583333,30.4625, 

2,2 2; »6,14,124,1320.7,1.25,25,0, 1125. 875,1.0833323,36. 125, 


РЫ 15.6 收 改 变量 类 型 
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(5) 将 数据 分 为 train(200 条 样本 数据 ,用 于 训练 生成 分 类 方法 ) 和 test 两 类 
(70 条 样本 数据 ,用 于 检验 分 类 方法 ) ,并 保存 于 不 同文 件 。 

2) 进行 分 类 训练 并 对 测试 样本 进行 分 类 预测 

(1) 首先 安装 Java Runtime Environment(JRE). 

(2) 解压 缩 文件 PSOACO2 V1. 0. zip Ji MR Е, FT FPR REST 
А. PSO/ ACO2 С 15. 7), 
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[815.7 PSO/ACO2 工具 主 界面 
(3) 加 载 用 于 生成 分 类 规则 的 训练 数据 (图 15. 8、 图 15. 9), 


ber of Particles"2 
 |Munber of Iterations 


Precision ~ | Fitness Function 


PSO w Continuous Optini ser 





图 15.8 选择 打开 训练 数据 
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图 15.9 选择 训练 数据 


(4) 设置 训练 次 数 、 粒 子 个 数 .迭代 次 数 .适应 度 函 数 ,对 于 连续 型 变量 的 处 理 
选择 粒子 群 算法 PSO。 设 置 参 数 后 点 击 Start 按钮 开始 训练 过 程 ( 图 15. 10). 


DataSet sucessfully loaded: D:\lius\work\Exercise H 
- (Number of Nominal and Binary Attributes;4 

Warber of Particles'2 (Number of Continous Att ributes: 11 

Wunber of Iterations Number of Records: 200 


| Wusber of Folds 


[Precision МА Fitness Function 


Ipso w Continuous Optimiser 


سا 





图 15. 10 参数 设置 
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(5) 在 训练 分 类 规则 结束 后 ,打开 检验 数据 ,对 已 生成 分 类 规则 的 数据 进行 检 
验 ( 图 15. 11, F8 15.12), 


[AVULA C Y 


ber of Folds Rule 8 
Rule 9 
Rule 10 : 


ber of Particles'2 


| Number of Iterations 


paeem w Fitness Function Accuracy in Traini 


3 tii | i 
= retusus Np ад Accuracy in Test Se 


Confusion Matrix 





图 15.11 打开 检验 数据 


EB Pso/aco? 
File Help ў : 
‘DataSet sucessfully loaded: D:\liux\work\Exercise H 
‘Number of Nominal and Binary Attributes:4 

Wusber of Perticles 2 Number of Continous Attributes: 11 


Bueber of Iterations Nunber of Records: 200 
Tets DataSet sucessfully loaded: D:\liux\work\Exerd 


| Humber of Folds 


t 
Precision AW Fitness Function Number of Nominal and Binary Attributes:d 


PSO w Continous Optimiser Number of Continous Attributes: 11 
Number of Records:70 


Outputting settings and raw predictions to: D:ili 


Starting Experiment: train. csv, агї? 





图 15.12 检验 数据 运算 中 
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4. 输出 


运算 的 输出 部 分 可 以 分 为 两 部 分 :训练 数据 运算 结果 输出 和 检验 数据 运算 结 
果 输 出 ( 表 15.1). 
通过 对 训练 数据 的 运算 ,分别 给 出 10 次 计算 的 分 类 规则 以 及 与 之 相对 应 的 准 
确 度 ,最 终 给 出 分 类 规则 的 平均 准确 度 为 64. 5% 3-7. 23%, 
对 检验 数据 进行 运算 ,得 出 准确 度 为 59. 29%。 
表 15.1 部 分 地 区 NID 发 生 真实 分 类 与 预测 分 类 
真实 分 类 预测 分 类 





石家庄 1 小 西 沟 1 1 
fi Se 1 ELEM 1 1 
xd 1 石 驼 坪 1 1 
М 1 大 雨 门 1 1 
基地 沟 2 个 川 1 1 
HAM 1 RAE 1 1 
石 长 沟 3 陈 家 庄 1 1 
Xii 1 LL 1 2 
Ku 1 下 黄岩 1 1 
后 当 城 1 红土 坪 1 2 
Dp 1 mu sp 1 2 
Fî HEK 1 北 高 印 1 1 
Fh 1 南庄 2 3 
Lec 1 йж 1 1 
пФ 1 其 林 台 2 3 
+i l 上 松 沟 1 3 
EF 1 

5. МЖ 


在 提取 分 类 规则 的 过 程 中 ,粒子 群 算法 本 身 不 能 处 理 分 类 型 (categorical/ 
nominal) 变 量 ,而 蚁 群 算法 (ACO) 对 处 理 分 类 型 变量 有 很 好 的 特性 。 PSO/ACO2 
通过 添加 蚊 群 算法 而 使 本 实验 不 需 对 分 类 型 变量 进行 预先 处 理 。 

实验 过 程 中 ,软件 首先 对 分 类 型 变量 进行 处 理 ,之 后 处 理 连续 型 变量 ,最 终 形 
成 分 类 规则 , 形 如 

IF Aj4-—(value) AND 2,,,>Ao AND Tuo SA (15. 1) 
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THEN Class C 

Aw КН, А D e SE Л НЕ, Zuo „ль FN 38 — E RHEE КЇН 
与 下 限 。 在 处 理 连续 型 变量 的 过 程 中 ,粒子 被 视 为 如 zuo 、ziw 的 变量 ,粒子 通过 调 
整 自己 的 位 置 来 改变 分 类 规则 中 某 一 连续 型 变量 的 上 限 与 下 限 ,并 最 终 达 到 最 优 。 

在 10 次 分 类 规则 的 计算 过 程 中 以 第 8 次 的 分 类 规则 得 到 的 准确 率 最 高 ， 





Fold:8 

Rule 0 : IF lithology code- 6 pestcide < = 0. 9492219849570901 vegetable < = 
36. 58978555938786 THEN 1 Quality: 0. 96 (6,0) 

Rulel : IF watershed id»-2. 3304307424567883 doctor <= 0: 9379948083593429 
fruit <=0. 2622224392554427 net- income <=1945. 3555681303137 THEN 1 Quality: 
0. 95 (2,1) 

Rule 2 : IF riverbuffer>=5. 301607899554273 fertilizer <= 
46. 57342206667432 vegetable <=136. 65976307322475 THEN 1 Quality: 0.95 (0,0) 

Rule3 : IF gradient_code=1 lithology code-5 elevation (m) <= 
1485. 0856120678395 net- income>=1059. 8544494543885 THEN 2 Quality: 0.94 (3,0) 

Rule4 : IF riverbuffer <=2. 3111113251809945 fertilizer <= 
43. 492907581973526 net- income <=1143. 0683213920715 pestcide <= 
0. 5459014322214607 THEN 1 Quality: 0.93 (1,1) 

Rule5 : IF doctor <=1. 1554085614524126 net- income»- 969. 7995660534971 net- 
income < = 3006. 591634024445 vegetable « = 112. 26854705441443 THEN 1 Quality: 
0. 93 (1,0) 

Rule6 : IF roadbuffer < = 5.7857967905770975 elevation (m) > = 
1326. 8987543789049 elevation (m) < = 1416.5639025414048 doctor > = 
0. 5958014420991178 doctor < = 3.5238072720297127 net - income > = 
1032. 8821200578316 THEN 1 Quality: 0. 69 (0,1) 

Rule? : IF elevation (m) >=1427. 2180651167755 pestcide <=0. 436127229532402 

vegetable <=55. 50021881377609 THEN 1 Quality: 0. 67 (1,0) 

Rule 8 : IF THEN 2 Quality: 0. 61 (1,2) 

Accuracy in Training Set: 86.11111111111111% 

Accuracy in Test Set: 75. 0% 





通过 数据 训练 得 出 平均 分 类 精度 为 64.5%% 士 7. 23% ,对 分 类 进行 检验 得 出 的 
精度 为 59. 29% ,符合 训练 数据 得 出 的 分 类 精度 要 求 。 


15.3 数学 模型 


在 每 一 次 迭代 中 ,粒子 通过 跟踪 两 个 “ 极 值 ”来 更 新 自己 :第 一 个 极 值 就 是 粒子 
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本 身 所 找到 的 最 优 解 pbest; 另 一 个 极 值 是 整个 种 群 目前 找到 的 最 优 解 gbest。 
粒子 BUYS X = (xa ro)" BE Vi = (va un)! ЧИС RAS 
为 pbest, 可 以 看 作 是 粒子 自己 的 飞行 经 验 ;全 局 极 值 表示 为 gbest, 可 以 看 作 整 个 
群体 的 飞行 经 验 。 粒 子 就 是 通过 自己 的 经 验 和 群体 经 验 来 决定 下 一 步 的 运动 。 对 
于 第 上 十 1 次 迭代 ,每 一 个 粒子 是 按照 式 (15. 2) 进 行 变化 的 : 
vii! —v +c, Xr; X(best— 25) 4-6; X r, X (gbest—2*, ) (15. 2) 
APY = xk rw! (15. 3) 
式 中 ,i 二 1,…,NN, 其 中 ,NN WRAP RL S ri ore 为 区 间 [ 一 1,1] 生 成 的 随机 
数 ;d 王 1,…,D,D 为 解 空间 的 维 数 , 即 自 变量 的 个 数 ;加 速 因 子 c 和 c 分 别 为 调 
节 向 pbest 和 gbest 方向 飞行 的 最 大 步 长 ,合适 的 c Mc. 可 以 加 快 收敛 且 不 易 陷 
人 局 部 最 优 。 最 大 速度 Vi 决定 了 问题 空间 搜索 的 力度 ,粒子 的 每 一 维 速 度 we 都 
会 被 限制 在 [一 Vw Vau]. 
式 (15. 2) 主 要 通过 三 部 分 来 计算 粒子 i 更 新 的 速度 :粒子 i 前 一 时 刻 的 速度 
vig REF i 当前 位 秆 与 自己 历史 最 好 位 置 之 间 的 距离 (pbest-x%)、 粒 子 i 当前 位 置 
与 群体 最 好 位 置 之 间 的 距离 (gpest 一 zu )。 粒 子 通过 式 (15. 3) 计 算 新 位 置 的 坐标 。 
式 (15. 2) 的 第 一 部 分 称 为 动量 部 分 ,表示 粒子 对 当前 自身 运动 状态 的 信任 ,为 
粒子 提供 了 一 个 必要 动量 ,使 其 依据 自身 速度 进行 惯性 运动 ;第 二 部 分 称 为 个 体 认 
知 部 分 ,代表 了 粒子 自身 的 思考 行为 ,鼓励 粒子 飞 向 自身 曾经 发 现 的 最 优 位 置 ;第 
三 部 分 称 为 社会 认 知 部 分 ,表示 粒子 间 的 信息 共享 与 合作 , 它 引导 粒子 飞 向 粒子 群 
中 的 最 优 位 置 。 式 (15. 2) 的 第 一 项 对 应 多 样 化 (diversification) 的 特点 ,第 二 项 ,第 
三 项 对 应 于 搜索 过 程 的 集中 化 (intensification) 特 点 ,因此 这 三 项 之 间 的 相互 平衡 
和 制约 决定 了 算法 的 主要 性 能 。 
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期 望 最 大 化 (expectation maximization,EM) 算 法 是 参数 估计 的 一 种 很 重要 算 
法 ,最 初 是 由 Dempster, Laird 和 Rubin 提出 的 ,是 一 种 当 观测 数据 为 不 完全 数据 
时 求解 最 大 似 然 估 计 的 迭代 算法 (Dempster et al. ,1977) , 它 大 大 降低 了 最 大 似 然 
估计 的 计算 复杂 度 , 但 性 能 却 与 最 大 似 然 估 计 相 近 , 具 有 很 好 的 实际 应 用 价值 。 

EM 算法 主要 在 两 种 情况 下 使 用 : 

(1) 由 于 观测 手段 的 不 完善 或 者 观测 条 件 的 不 理想 ,最 终 得 到 的 观测 值 确实 
存在 着 数据 缺失 的 现象 。 这 个 时 候 可 以 利用 EM 算法 ,在 数据 不 完整 的 条 件 下 来 
求解 待 估计 参数 的 最 大 似 然 估计 值 。 

(2) 当 待 估计 参数 的 似 然 函数 难于 处 理 时 ,往往 无 法 获得 其 最 大 似 然 估 计 值 
的 解析 表达 。 但 是 ,如 果 假 设 一 些 “ 潜 在 数据 ”存在 ,将 数据 集 扩充 为 完备 数据 集 ， 
就 可 以 大 大 简化 该 似 然 函 数 的 求解 ,这 个 时 候 也 可 以 使 用 EM 算法 来 渐 近 地 求解 
待 估计 参数 的 最 大 似 然 估计 值 。 

EM 算法 是 一 种 类 代 方法 , 它 的 每 一 次 迭代 由 两 步 组 成 :E 步 和 M 步 。 一 般 
Wh HF, E 步 是 expectation step 的 缩写 ,表示 在 给 定 观 测 数据 和 前 一 次 迭代 所 得 到 
的 参数 估计 的 情况 下 ,计算 完全 数据 对 应 的 对 数 似 然 函数 的 条 件 期 望 。M 步 是 
maximization step 的 缩写 ,表示 用 极 大 化 对 数 似 然 函 数 来 确定 参数 的 值 ,并 用 于 下 
步 的 迭代 。 该 算法 过 程 要 求 在 下 步 和 M 步 之 间 不 断 迭 代 直 至 收敛 为 止 。 

EM 算法 最 大 的 优点 是 简单 和 稳定 ,在 不 知道 待 估计 参数 先 验 信息 和 观测 数 
据 不 完备 的 情况 下 提供 一 个 简单 的 迭代 算法 来 计算 参数 的 最 大 似 然 估计 。EM 算 
法 保证 迭代 收敛 ,并 至 少 得 到 使 待 估计 参数 的 似 然 函 数 达 到 局 部 极 值 的 一 个 估计 
值 (Bilmes and Gentle, 1998). 


16.2 3 fil 
1. 目的 


ЖЭ Be GC И E Ж AC IK НЯ А. 45 TFET Ж Ж. REOR RCE OL 
神经 管 畸形 出 生 缺 陷 率 影 响 因 子 数据 ,同时 通过 每 个 村 的 新 生 儿 神经 管 畸形 出 生 
缺陷 率 对 聚 类 进行 评价 。 


第 16 章 期 望 最 大 化 算法 • 217 ° 


2. 数据 


数据 采用 和 顺 县 神经 管 出 生 缺 陷 NTD 影响 因子 数据 ,包括 :土壤 类 型 .河流 
缓冲 区 .道路 缓冲 区 .分 水 线 编号 .坡度 编号 .岩石 类 型 编号 .断层 绥 冲 .土地 覆盖 、 
高 度 、 医 生 数 量化 肥 数 量 . 净 收入 ,农药 数量 .蔬菜 数量 .水果 数量 (soil code, ri- 
verbuffer, roadbuffer, watershed _ ID, gradient _ code, lithology _ code, faultage- 
buffer, landcover, elevation (m) , doctor, fertilizer, net-income, pestcide, vegetable, 
fruit) 以 及 出 生 缺 陷 率 (NTD_rate) 数 据 , 在 求 出 生 缺 陷 率 的 过 程 中 将 出 生 人 数 小 
于 5 的 村 日 除 。 将 出 生 缺 陷 率 分 为 :0、 二 0 JF HL—0. 08, —0. 08 三 类 , 即 无 出 生 缺 
陷 , 出 生 人 缺陷 率 不 高 .出 生 缺 陷 高 发 三 类 。 

由 于 本 实验 欲 通 过 出 生 缺 陷 率 对 聚 类 效果 进行 评价 ,而 评价 聚 类 效果 所 使 用 
变量 只 能 是 分 类 型 (categorical/nominal) ,因此 需 将 三 类 出 生 缺 陷 率 进行 编号 ;1 一 
无 出 生 缺 陷 ;2 王 出 生 缺 陷 率 不 高 ;3 三 出 生 缺 陷 高 发 。 使 用 200 条 样本 数据 用 于 训 
练 ,70 条 样本 数据 用 于 测试 。 


3. 软件 使 用 及 输入 
本 实验 所 需 工 具 weka-3-5-7. exe F AR hk; http://www. cs. waikato. ac. nz/ 


ml/weka, 


(1) 打开 记录 有 实验 所 需 数据 的 . xls 文件 ,并 将 其 另存 为 . csv 文件 (图 16.1). 


T 








0 
7 
2 
22 
7 
7 
7 
2 
2 
22 
22 
7 
2 
2 
了 
7 
7 
7 
7 
7 


20 
ОСУУСУ; 





图 16.1 将 数据 保存 为 . csv 格式 
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(2) 打开 МЕКА 软件 ,并 进入 Explorer 模块 (图 16.2). 


E Tools Visueliratiem Help 





图 16.2 МЕКА 主 界面 


(3) 在 МЕКА 中 打开 存 有 实验 数据 的 . csv 文件 (图 16. 3) ,将 其 另存 为 .arff 


文件 (图 16.4.0 16.5). 
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点 击 打开 文件 选项 


图 16.3 
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图 16.4 选择 所 需 转换 文件 
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Р 16.5 保存 为 .arff 文件 
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(4) 修改 soil_code gradient_code, lithology_code,landcover, NTD_rate 为 分 
类 型 变量 (在 上 步 格 式 转换 过 程 中 ,所 有 变量 被 统一 按照 数值 类 型 处 理 )。 首 先 用 
UltraEdit 等 文本 编辑 工具 将 . arff 文件 打开 ,然后 按照 下 图 格式 修改 变量 类 型 ( 变 
量 名 后 括号 内 数据 即 为 变量 种 类 )( 图 16. 6). 


Gaccrsbute soil code (3,4,5,7,20,21,22,23,27) 
Battribute riverbuffer numeric 

@attribute roadbuffer numeric 

Battribute watershed ID numeric 

Bacrribure gradient code (1,2,3,5) 
Battribure lithology code {1,2,3,4,5,6,7 
Barrribure faultegebutfer numeric 

@attribute landcover 121,22,23,24,31,32,33,46,52, 121, 122, 123, 124! 
Rattribute elevationim) numeric 

Battribute doctor numeric 

Ractribute fertilizer numeric 

@attribute fruit numeric 

Gattribute net-income numeric 

Battribute pestcide numeric 

Battribure vegetable numeric 

attribute NTD rate {1,2,3 


@data 

7,2,8,1,1,6,14,33, 1310.55, 1.128, 38.33,0, 1193, 1.333333, 45.0375, 1 
22,6,6,1,1,6,]14,33,1300,0.375, 25,0, 1182.375,0.416667,31.6125,1 
7,5,2,1.1.5 12,22,1300,2.625,45,0,1153.62$,1.666667, 40.8125. 1 
2,4,6,14,33,1354.12,1,125,895.63, 4.375 1354.625,2.5,52.4625,1 
,2,1,6,12,32,1370.26, 1.25, 80,0, 1261.25, 1, 43, $6075, 1 
2,1,6,12,32,1400,1.375,25,0,1161.25,0,833333, 23. 8375, 1 





һә вә т 


图 16.6 修改 变量 类 型 
(5) 在 Мека 中 将 调整 后 的 . arff 文件 加 载 ( 图 16.7). 
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图 16.7 重新 加 载 . arff 文件 
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(6) 点 击 Cluster 选项 ,进入 聚 类 操作 界面 (图 16. 8). 
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图 16.8 聚 类 操作 界面 
(7) 选择 EM 作为 聚 类 操作 方法 (图 16. 9) 。 


Explorer 
Program Applications Tools Visualization Windows Help 
P Explorer 
Preprocess Classify Cluster Associate Select attributes Visualize 


Clusterer 


= CI clusterers 


Cobweb | Clusterer output 
DBScan 


pestes 
redClusterer 


HakeDensi tyBasedClusterer 
OPTICS 
SimpleKMeans 


000909000 6 


XMeans 





图 16.9 选择 EM WARAH 


(8) fg SEE SC rp FE"Classes to clusters evaluation” 并 选择 变量 NTD rate 
用 以 对 聚 类 效果 进行 评价 (图 16.10). 
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图 16.10 选择 聚 类 模式 
(9) 点 击 Start 按钮 进行 聚 类 分 析 ( 图 16. 11), 
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图 16.11 进行 聚 类 分 析 
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(10) 运算 结束 后 ,首先 记录 聚 类 输出 (cluster output) 中 的 实验 结果 ,然后 在 
结果 列表 (result list) 中 选择 所 需 结果 ,点 击 右键 并 选择 聚 类 输出 图 (图 16. 12), 


Result list (right-click for options) 


View in main window 


View in separate window 
Save result buffer 
Delete result buffer 


Load model 
Save model 


rrectly « 





图 16.12 查看 聚 类 图 


(11) 调整 聚 类 图 中 х,у 轴 所 代表 变量 ,获取 所 需 聚 类 。 本 实验 中 选取 In- 
stance_number( 粒 子 实例 :代表 每 一 个 村 ,其 中 叉 形 代表 通过 NTD rate 分 类 评价 
正确 分 类 的 村 ) 作 为 x 轴 变 量 ,Cluster( 聚 簇 ) 作 为 y 轴 变 量 ,并 选择 根据 不 同 的 聚 
簇 给 实例 标 上 不 同 的 颜色 (图 16.13). 
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图 16.13 ЖЖ 
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(12) 通过 调整 聚 类 参数 重新 进行 一 组 聚 类 分 析 , 用 于 实验 对 比 。 例 如 ,可 以 
周 定 聚 类 聚 簇 为 3 类 ,以 便 和 实验 数据 中 NTD 分 类 相对 。 在 聚 类 方法 中 点 击 右 
键 ,选择 Show properties 修改 聚 类 参数 (图 16. 14、 图 16. 15)。 
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图 16.14 选择 显示 参数 
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图 16.15 修改 参数 


(13) 通过 忽略 一 些 变量 重新 进行 一 组 实验 ,用 于 进行 实验 对 比 。 本 次 实验 
中 ,忽略 了 soil_code, fruit. pestcide 对 聚 类 的 影响 (图 16. 16 .图 16. 17), 
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图 16.16 点 击 忽略 属性 选项 
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lithology code 
faultagebuffer 





图 16.17 PRE 


4. 输出 
(OD 使 用 默认 的 聚 类 设置 (图 16.18), 
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图 16.18 BRIA RAR 


Number of clusters selected by cross validation: 8 


Clustered Instances Ж ® A ЕКЕ РИТЕ ЖЕБЕП: ОНЫ EB) 
0 41(15%) 
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24( 9%) 

57 (218) 

30 (11%) 

78 (29%) 

28 (108) 

6( 23) 

6( 23) 

Log likelihood (ftl IRE) : - 35. 87057 


м ي‎ щл 4 WN н 


Class attribute PE ffr ЖЖЖЖ MK : мтр rate 


Classes to Clusters: 


01 2 3 4 5 6 7<--assigned to cluster( 真 实 分 类 与 自动 聚 类 对 比 ) 
32 11 45 21 50 10 4 211 
6 31 9 x aiti i 
3525  & E t$ OF 


在 NTBD rate АЖЖ 53 ROCA ЖАНГ ЛУ Пу Ж. 
Cluster 0 <--No class 

Cluster 1 «--No class 

Cluster 2 «--No class 

Cluster 3 «--3 

Cluster 4 <--1 

Cluster 5 «--2 

Cluster 6 «--No class 

Cluster 7 <--No class 


不 正确 的 聚 类 个 数 及 其 百分比 : 
Incorrectly clustered instances: 197.0 72.963% 


(2) BISE RIK CY 3( 图 16.19), 
Number of clusters: (Aim #5 =3) 
Clustered Instances f RR PMA HMO 


0 74 (27%) 
1 68 (258) 
2 128(47%) 


Log Likelihood( 相 似 度 ) : -38. 40941 
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Class attribute( 评 价 谷 类 效果 的 依据 ) : NTD rate 


Classes to Clusters: 


0 1 £2<--assigned to cluster( 真 实 分 类 与 自动 聚 类 对 比 ) 
34. 38 10311 

36 26 11]2 

4 4 1413 


在 自动 聚 类 过 程 中 与 真实 分 类 相对 应 的 类 ， 
Cluster 0 «--2 
Cluster 1 «--3 
Cluster 2 «--1 


AERO RET RUE 2r EE: 


Incorrectly clustered instances : 127.0 47. 037 % 
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图 1G. 19 [ж EET S RE PH 
(3) 忽略 soil code, fruit, pestcide 对 聚 类 的 影响 (图 16. 20), 
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图 16.20 ERRERRHHRXE : 


Number of clusters selected by cross validation: 12 (系统 自动 生成 的 聚 类 个 数 ) 


Ignored: 

soil code 

fruit 

pestcide 
(忽略 soil _code,fruit.pestcide MRAM) 
Clustered Instances CE Ж НЕ О) 


80 (30%) 
21( 8%) 
7( 3%) 
22( 8%) 
20( 7%) 
23( 9%) 
20( 7%) 
12( 4%) 
14( 5%) 


C ч m (л 4& шо N F су 
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9 24( 9%) 
10 15( 6%) 
11 12( 4%) 


Log likelihood( 相 似 度 ) : - 32. 87652 


Class attribute( 评 价 聚 类 效果 的 依据 ) : МТО rate 
Classes to Clusters( 真 实 分 类 与 自动 到 类 对 比 ): 


0 1 2 3 4 5 6 7 8 9 10 = £11<--assigned to cluster 
42 12.6 58 if 18 Ли а. 1l. @ 34 ап 
Au Ww dg Gr Е X Ze d 3 812 
а 2° 3 Gd X s S X Ж.Ш D 013 


在 自动 聚 类 过 程 中 与 真实 分 类 相对 应 的 类 : 
Cluster 0<--1 
Cluster 1<--Noclass 
Cluster 2 <--No class 
Cluster 3 <--М№о class 
Cluster 4 <--Мо class 
Cluster 5 <--No class 
Cluster 6 <--М№о class 
Cluster 7 <--Мо class 
Cluster 8 «--3 
Cluster 9«--2 
Cluster 10 «--No class 
Cluster 11 <--М№о class 


不 正确 的 聚 类 个 数 及 其 百分比 : 
Incorrectly clustered instances : 211.0 78.1481% 


5. 解释 


实验 结果 中 ,Number of clusters 3&z& RHI, Clustered Instances 是 各 个 
簇 中 各 村 数目 及 百分比 , Log likelihood 表示 相似 度 大 小 , Incorrectly clustered 
instances 表 示 相 对 于 指定 的 评价 规则 ,错误 聚 类 的 粒子 数目 及 百分比 。 

使 用 默认 的 参数 设置 进行 聚 类 , 聚 簇 个 数 默认 为 一 1, 此 时 系统 将 采用 cross 
validation( 交 叉 验 证 ) 用 以 决定 聚 簇 的 个 数 。 系 统 通过 增加 聚 徐 个 数 来 减少 相似 
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度 , 当 相似 度 不 再 减少 时 ,系统 停止 增加 聚 簇 个 数 。 

通过 实验 可 以 看 出 , 当 对 参数 及 变量 不 进行 修改 时 ,系统 自动 生成 的 聚 答 个 数 
为 8, 相 似 度 为 一 35. 87057( 相 似 度 的 绝对 值 越 小 表明 聚 类 效果 越 好 ) ,错误 聚 类 
〈 聚 类 图 中 矩形 代表 错误 分 类 ,又 形 表示 正确 分 类 ) 占 到 72.963%。 当 事先 设 定 聚 
fe Ay 3 时 , 相似 度 的 绝对 值 增 大 为 一 38. 40941, 但 错误 聚 类 的 百分比 降 到 
47.037%。 当 忽略 掉 soil code, fruit, pestcide 对 聚 类 效果 的 影响 时 ， 系统 自动 生 
成 12 个 聚 得 ,同时 相似 度 的 绝对 值 减少 至 最 低 (一 32. 87652) ,错误 聚 类 百分比 却 
上 升 至 78. 1481%, 


16.3 数学 模型 


标准 EM 算法 中 ,通常 是 利用 最 大 似 然 (maximum likelihood) 准 则 对 参数 进 
行 估计 。 假设 有 N 个 数据 X 王 {zi,…，,z,} 是 由 对 于 特定 的 独立 同 分 布 bG | 


样 获得 ,那么 似 然 函数 为 pCa | 0) = T [ p(x: | 0) = LG | X), 最 大 似 然 准则 是 寻 


找 满 足 
0' —arg maxL(0| X) (16. 1) 
的 模型 参数 ,其 中 9 和 9" 分 别 为 候选 及 最 优 参 数值 ,L 为 计 似 然 函数 ,X 为 样本 。 
通常 ,为 了 计算 和 求解 方便 ,利用 对 数 似 然 函 数 log(L(9| X)) 进 行 求解 和 优化 ， 
假设 数据 集 Z 包括 已 观测 数据 X 和 未 观测 数据 Y。 因 此 有 
p(z=|0)= P(+z,y|0)= p(y|z.0)p(z|0) (16.2) 
定义 完全 似 然 函 数 为 | 
L(0|Z)=p(X,Y|0) (16.3) 
那么 ,标准 EM 算法 里 ,E-step 通常 计算 完全 数据 对 数 似 然 函 数 在 给 定 已 观 
测 数 据 X 后 对 于 未 观测 数据 Y 的 数学 期 望 ,或 者 称 为 Q 函数 
Q(0.0(u)) = E[logp(X,Y | 0) | Х.000)] 


logp(X,y | 0) fly | X$ dy (16. 4)‏ | ت 
这 里 OC) aC ERAS 0 ETHEL m yz ДЕЕ X YZ 的 样本 值 .‏ 
M-step 根据 如 下 公式 更 新 模型 参数 ，‏ 
ди +1) = arg тахо(0,000)) (16. 5)‏ 


标准 的 EM 算法 通过 迭代 进行 E-step 和 M-step, 直 到 参数 收敛 为 止 。EM 算 
法 在 理论 上 能 够 收敛 到 参数 空间 的 局 部 极 值 。 
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谢 菲 尔 德 是 英国 较 大 的 城市 ,市 内 有 100 多 个 汽车 加 油 站 ,各 站 自行 制定 售 油 
价格 以 谋求 各 自 的 最 大 利润 ,最 优 价格 的 制定 受到 周围 其 他 加 油 站 价格 等 多 种 因 
素 影 响 ,互相 竞争 达到 平衡 ,形成 空间 价格 分 布 。 一 个 地 区 的 房屋 价格 与 本 地 区 及 
邻近 地 区 的 房屋 价格 ,就 业 水 平和 收入 水 平 有 关 , 相 互 作用 ,达到 均衡 ,形成 房屋 价 
格 的 空间 分 布 。 我 国 华北 是 严重 缺 水 地 区 ,南水北调 中 线 自 长 江 中 游 的 丹江口 水 
库 挖掘 水 渠 经 过 河北 各 地 区 通 往 北京 ,在 保证 生活 和 生态 用 水 的 前 提 下 ,如 何 向 沿 
线 各 地 区 分 配 调 水 ,以 达到 工程 总 的 经 济 利益 最 大 化 ? 

以 上 案例 均 涉及 空间 分 布 对 象 的 空间 相互 作用 和 相互 竞争 ,其 中 空间 邻近 关 
系 或 区 域 的 资源 稀缺 性 是 各 对 象 产生 竞争 的 重要 原因 ,竞争 的 目的 是 个 体 或 整体 
达到 利益 最 大 化 ,这 类 问题 归结 为 空间 运筹 。 相 对 于 空间 数据 统计 分 析 和 普通 运 
筹 学 ,空间 运筹 理论 远 未 成 型 ,以 下 以 零售 业 空间 价格 运筹 .房价 空间 运筹 和 资源 
空间 优化 配置 三 个 典型 案例 为 例 , 使 读者 体会 空间 运筹 问题 。 最 后 对 空间 运筹 做 
一 小 结 。 


17.1 零售 业 空 间 价格 模型 


市 场 空间 竞争 导致 的 均衡 价格 不 仅 体现 了 当地 的 供需 水 平 ， 而 且 揭示 多 个 
市 场 间 的 交通 往来 情况 。 市 场 间 的 贸易 关系 往往 取决 于 交通 费用 的 高 低 、 市 场 
间 的 价格 差异 ,可 以 将 其 归纳 为 空间 供需 平衡 方程 。 在 需求 郴 数 中 ,考虑 到 消费 
者 对 价格 变化 的 敏感 性 .零售 商 对 竞争 价格 的 关注 程度 以 及 消费 者 具有 相当 大 
的 流动 性 。 


1. 模型 


Haining(1983) 建 立 了 一 个 模型 来 解释 在 城市 内 部 空间 中 相互 作用 的 市 场 汽 
油价 格 空间 分 布 模式 : 
D, — AY, +c 
S, — ВҮ,_,+е 
xh ctl] D 为 需求 ;S 为 供给 ;Y 为 价格 ;A、B 为 待 求 参数 ;ce AA. 
假设 供需 达到 平衡 


GL 


Do 一 So =0 (17. 2) 
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解 为 
Y=A !BY, ,+A 1(e—c) (17. 3) 
Эрт ШЇ 
Ү,=(А— В)! (e—c) (17.4) 


第 i 个 加 油 站 平衡 价格 
Yie = » zu TERT — 


j=l bi — dii bi; — aij 
上 式 表 达 的 空间 价格 的 形成 机 制 , 可 用 于 理论 分 析 。 上 有 具体 应 用 形式 为 求解 方 
程 组 


(17.5) 





Y 一 a HWY +X eps Xici pi te e~N(0,0°) (17. 6) 
式 中 ,Y 为 n 个 加 油 站 中 每 个 加 油 站 零售 价格 ;XX 为 n Xk Ж PE, A yh UC 
用 ,例如 这 个 加 油 站 是 不 是 还 提供 其 他 汽车 服务 ,该 加 油 站 是 一 个 主要 还 是 次 要 的 
品牌 零售 点 等 ;Xuw A n X k 数据 矩阵 ,表示 区 位 效用 ,例如 此 加 油 站 是 不 是 在 主 
干道 旁 等 ;W 为 用 来 描述 位 置 间 交互 作用 样式 的 给 定 的 n Xn IESU IAE а, ,ps， 
BAW X1 参数 向 量 ;p 为 交互 作用 或 空间 自 相 关 参 数 ;e 为 随机 误差 ,N 代表 正 态 
Hm 为 离散 方差 。 


2. 案例 


搜集 了 英国 谢 菲 尔 德 市 的 85 个 加 油 站 在 1982 年 1 一 3 月 每 月 中 某 一 天 的 汽 
油价 格 ( 图 17. 1)。 每 个 样本 在 时 间 上 大 致 间 隔 一 个 月 。1 月 份 在 85 个 加 油 站 中 
四 星 级 (普通 级 别 ) 汽 油 每 加 仑 的 最 低 价 是 153. 9 便士 ,2 月 份 最 低 是 148.7 便士 ， 
3 月 份 是 141. 0 便士 。 结 果 如 下 (Haining,1983) ; 

C1) 离散 属性 。 在 3 个 月 的 时 间 内 汽油 价格 处 于 下 降 的 趋势 。1 月 份 47.8% 
的 加 油 站 收费 在 153. 9 一 155. 9 便士 (2 便士 之 差 );2 月 份 51. 4% 收 费 在 149. 5 一 
151.0 便 士 (1.5 便士 之 差 );3 月 份 50% 的 加 油 站 收费 在 141. 8 一 142.0 便士 (0. 2 
便士 之 差 ) 。 

(2) 回归 属性 。 已 观测 的 汽油 价格 关于 表示 位 置 .汽车 维修 和 汽车 销售 的 虚 
拟 变量 回归 。 在 三 个 月 中 , 仅 位 置 变量 是 显著 的 (处 于 95% 水 平 )。 空 间 回 归 系 数 
显示 位 于 主干 道 旁 的 加 油 站 在 这 三 个 月 中 平均 价格 分 别 上 涨 了 3.7.4.3 和 2.4 便 
T. 1 月 份 自动 销售 变量 也 是 显著 的 一 一 空间 回归 系数 显示 向 汽车 出 售 汽油 的 加 
油 站 有 1. 96 便士 的 价格 增幅 。 

(3) 自 协 方差 属性 。 图 17. 1 中 各 加 油 站 点 连接 图 定义 了 在 自 回归 模型 中 W 
的 非 零 项 。 选 择 一 个 沿 着 城市 中 心 主干 道 的 连接 系统 。 因 为 市 区 拥挤 的 特性 趋 于 
不 鼓励 扩大 搜索 ,所 以 市 区 范围 处 于 互 不 连接 的 状态 (除了 组 团 以 外 )。 
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FA 17.1 加 油 站 连接 地 图 (Haining, 1983) 


表 17. 1 给 出 了 3 组 答案 。 第 一 组 关于 自 回归 模型 对 加 油 站 整个 集合 的 拟 合 
( 表 17. 1(a))。 这 代表 一 种 欲 在 加 油 站 整个 集合 中 确定 一 个 单一 竞争 参数 的 党 
it. p 的 估计 值 接近 于 0 表示 没有 相互 影响 效用 ,而 当 p 值 从 大 于 0 增加 到 1 的 一 
个 极 大 值 时 ,很 显然 表示 有 较 强 的 交互 作用 。 但 只 有 在 1 月 份 才 出 现 了 使 用 籽 拟 
合 优 度 判别 的 显著 性 交互 作用 。 从 2.3 月 份 的 结果 显示 ,大 概 届 于 更 为 统一 价格 
的 压力 ,价格 表面 已 从 自 相关 变 为 独立 随机 。 
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表 17.1 自 回 归 交 互 模型 的 参数 估计 和 似 然 比 率 测试 (Haining,1990) 


{ELER e ff iE x 
c |n ROT ] < | - 
(a) 所 有 加 油 站 





ER 17.1(b) 和 (c) 部 分 ,同一 模型 被 用 来 估算 关于 沿 着 主干 道 相互 连接 的 加 
油 站 子 集 。 在 17. 1(b) 部 分 ,模型 被 用 来 估算 从 Infirmary Road 到 Langsett Road 
(加 油 站 30 一 37) 的 加 油 站 汽油 价格 。 在 这 部 分 中 ,系数 的 所 有 符号 都 为 正 。 虽 然 
大 的 值 出 现在 1,2 月 份 ,但 是 由 于 样本 量 较 小 ,系数 符号 为 正 仅 在 3 月 份 才 具有 统 
计 意 义 上 的 有 效 性 。 在 17. 1(c) 部 分 ,模型 用 来 估算 City Road-Ring Road-Ches- 
terfield Road 部 分 (加 油 站 26,61 一 64,66 一 70,72 一 74,77 一 79) 的 加 油 站 汽油 价 
格 。 只 有 在 1 月 份 产 生 了 在 统计 意义 上 有 效 的 结果 ,但 所 有 符号 再 一 次 一 致 。 


17.2 房屋 空间 价格 模型 


房屋 是 区 域 经 济 的 一 大 部 分 内 容 ,私人 房产 占据 了 国家 资产 的 一 半 以 上 。 向 
量 自 回 归 (VAR) 是 获取 宏观 经 济 全 集 相互 作用 的 有 效 工 具 。VAR 和 结构 分 析 可 
以 用 于 检查 每 一 个 外 生变 量 冲击 的 动态 行为 ,如 房屋 价格 ,抵押 率 ,通胀 .就 业 、 人 
均 收 入 等 。 房 屋 价格 的 VAR 模型 可 以 写作 (Kuethe and Pede, 2008) 
H, —ai Њо МЕ, +a W, +a, WH ,-ı +а-МЕ, 1 +a WI,_ Fe, 
Е, = а» Еа» WH, а: WI, +a, WH „1 +a25WE,—; Fas WI -i Hen £17. 7) 
І, =аз Раз WE, +a3;WI ,--aWH +assWE, assWI, +e, 
PA, 为 时 刻 t 的 房屋 价格 ;E, 为 时 刻 上 的 就 业 率 ;I 为 时 刻 上 的 收入 ;W 为 空 
间 链 接 和 矩阵 。 
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房屋 价格 可 以 用 房价 指数 HPI 度量 , 即 一 个 家 庭 的 住房 花费 ,该 指标 在 美国 
由 联邦 住房 企业 监督 (OFHEO) 每 月 公布 。 图 17. 2 一 图 17.4 反映 了 这 一 指标 的 
时 空 变化 。 





1978 1983 1988 1993 1998 2003 
年 份 


图 17.2 美国 4 个 州 HPI 随 时 间 变 化 
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图 17.3 HPI #7 Moran's 1 随时 间 变 化 
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将 某 个 经 济 冲 击 输入 房屋 价格 的 VAR 模型 可 以 得 到 不 同 地 区 的 不 同 反应 。 
例如 ,就 业 率 王 的 变化 对 房屋 价格 的 冲击 。 


17.3 资源 空间 配置 边际 效益 均衡 模型 


资源 稀缺 引发 区 域 之 间 争 夺 资 源 的 矛盾 和 冲突 ,资源 在 不 同 区 域 之 间 的 合理 
配置 有 可 能 达到 互利 双赢 的 目的 。 本 节 介 绍 基于 边际 效益 的 资源 空间 优化 配置 模 
型 (Wang et al. ,2002a,2008a) 。 该 模型 的 优点 在 于 反映 了 资源 配置 的 经 济 学 机 理 
本 质 ,结构 简单 ,易于 使 用 。 


1. 原理 


资源 利用 的 边际 效益 是 指 在 其 他 生产 要 素 都 不 变 的 条 件 下 ,在 当前 资源 用 量 
的 基础 上 每 增加 一 个 单位 资源 供给 所 增加 的 产值 (图 17. 5)。 图 中 横 坐 标 表示 资 
源 投 入 量 , 纵 坐标 表示 单位 投入 所 带 来 的 效用 ,三 条 曲线 代表 三 个 不 同 地 区 的 边际 
效益 曲线 ,之 所 以 不 同 是 因为 不 同 地 区 的 经 济 规模 .产业 结构 不 同 。 边 际 效 益 曲 线 
一 般 可 以 用 区 域 若干 年 的 经 济 统计 数据 代入 Cobb-Douglas 生产 函数 回归 获得 ( 王 
智勇 等 ,2000) 。 

假设 全 区 域 由 如 图 17. 5 的 三 个 子 区域 组 成 , 现 有 一 资源 量 Q 投入 ,如 何在 这 
三 个 子 区 域 之 间 分 配 ? 





图 17.5 区 域 资 源 利 用 边际 效益 


为 使 全 区 收益 最 大 ,资源 首先 应 当 分 配给 边际 效益 最 大 的 子 区 , 即 子 区 1, 直 
至 边际 效益 从 'y, 减少 到 ?yw ,此 后 资源 应 在 子 区 1 和 子 区 2 同时 分 配 ,以 保持 各 自 
资源 用 量 所 对 应 的 边际 效益 相等 ,否则 ,只 在 其 中 某 个 子 区 (假设 子 区 1) 连 续 分 配 
资源 必 将 导致 该 子 区 所 对 应 的 边际 效益 下 降 而 小 于 另 一 个 子 区 ( 子 区 2) 的 边际 效 
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益 , 这 时 在 另 一 个 子 区 ( 子 区 2) 分 配 资 源 必 将 产生 更 大 的 效益 。 同 样 道 理 ,在 多 个 
子 区 之 间 进 行 资 源 分 配 时 ,只 有 保证 资源 利用 边际 效益 均衡 ,才能 使 水 资源 在 全 受 
水 区 产生 的 经 济 效益 最 大 ( 王 劲 峰 等 ,2001) 。 

以 上 原理 可 写作 目标 优化 数学 模型 ,进行 解析 求解 (Wang et al. ,2002a); 也 
可 以 遵循 以 上 原理 用 简单 搜索 比较 的 方法 进行 区 域 间 资 源 配置 。 


2. 案例 


中 国 华北 地 区 是 严重 缺 水 区 ,南水北调 中 线 将 长 江水 途经 河北 调 往 北京 ,沿线 
河北 六 地 区 均 需 要 分 水 (图 17. 6)。 利 用 Cobb-Douglas 生产 函数 计算 获得 各 地 区 
工农 业 用 水 综合 边际 效益 曲线 (图 17.7)。 图 17. 8 是 由 以 上 原理 计算 的 在 不 同 来 
水 量 情况 下 的 各 子 区 最 优 分 水 量 , 由 此 产生 图 17. 9 的 各 子 区 受 水 经 济 效益 ,并 保 
证 达到 全 区 域 经 济 效益 最 大 。 图 17. 10 是 分 水 次 序 ,表示 首先 应 当 给 保定 地 区 分 
水 , 当 来 水 达到 O. 4 亿 t 时 , 除 继续 给 保定 分 水 的 同时 ,应 当 给 石家庄 分 水 ,来 水 总 
量 达 到 1 亿 t 时 ,在 保证 前 两 个 地 区 分 水 的 同时 ,应 当 给 衡水 分 水 ,来 水 达到 1.8 
亿 t+ 时 ,应 当 开 始 给 邯郸 分 水 , 当 来 水 达到 4.7 亿 + 时 ,应 当 开始 给 邢台 分 水 , 当 来 
水 达到 8 亿 + 时 ,应 当 开始 给 沧州 地 区 分 水 ,这 时 ,河北 中 南部 的 所 有 地 区 都 应 该 
得 到 分 水 ,具体 分 水 方案 见 图 17.7. 


4 N 





图 17.6 研究 区 域 
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工农 业 用 水 综合 边际 效益 (河北 六 地 区 ) 一 + 一 石家庄 





工农 业 用 水 总 量 /( 亿 0) 
图 17.7 工农 业 用 水 综合 边际 效益 
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图 17.9 子 区 分 水 效益 及 全 区 最 大 分 水 效益 
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图 17.10 各 子 区 分 水 启动 时 序 


表 17. 2 对 一 些 空间 运筹 案例 进行 了 总 结 归纳 。 
R 17.2 若干 空间 运筹 案例 总 结 归纳 


эи | ми [иж 


华北 水 利用 | 各 区 域 输入 
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CERRO. 1997) | 污 量 Ts 
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(Fisher, 2002) 
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最 大 净利 润 
二 最 大 (毛利 一 成 本 ) 














* 240 。 空间 数据 分 析 教 程 





空间 运筹 与 研究 对 象 的 空间 位 置 ,分布 和 属性 的 空间 异 质 性 有 关 , 其 一 般 过 程 
是 :确定 系统 目标 ,利用 与 目标 直接 或 间接 有 关 变 量 的 空间 相互 作用 关系 ,通过 调 
控 可 控制 变量 ,实现 对 空间 过 程 的 调控 ,达到 目标 。 空 间 运 筹 较 经 典 运筹 多 出 了 一 
个 自由 度 :空间 维 。 空 间 维 为 我 们 提供 了 更 多 的 操作 空间 ,使 目标 可 以 更 加 优化 ; 
并 且 提 高 系统 调控 的 可 操作 性 。 例 如 ,传染 病 时 空 传播 中 空间 隔离 .局 域 旅行 警 
告 . 扑 杀 和 接种 的 空间 策略 等 可 以 灵活 组 合 ,达到 传染 病 的 最 有 效 控制 (Keeling et 
al. ,2003) ;运筹 中 引入 空间 维 的 第 三 个 好 处 是 使 人 们 可 以 更 加 细致 地 观察 和 理解 
研究 对 象 在 空间 上 的 过 程 和 表现 。 
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Christakos(2000) 建 立 了 BME 理论 。BME 是 Bayesian maximum entropy 的 
缩写 , 它 是 信息 论 中 的 最 太 原理 与 数理 统计 中 的 贝 叶 斯 理论 的 结合 。 这 一 模型 
以 及 相应 的 软件 工具 SEKS-GUI, 可 以 用 来 对 用 户 的 原始 时 空 数据 进行 建 模 、 预 测 
和 产生 可 视 化 的 图 形 输出 。 

T e AE PA — PEAS RE АН Se TE. "d ЛЕ 
在 所 提供 数据 有 限 或 概率 空间 不 完备 的 情况 下 ,在 估计 随机 变量 的 概率 分 布 时 , 选 
出 具 脑 最 大 的 一 种 概率 分 布 ,作为 估计 的 结果 。 度 量 随机 变量 x 不 确定 性 的 
Ti Je: 


es 
HG) =—| Ux)logl(x)de (18. 1) 


SUP LC) A ac ARER S HE РА С, OT C REDI 2 AR HC B5 Hf de LEFF 
(bit), dn е 为 底 , 则 其 单位 是 奈 特 Cnat) ,从 数学 运算 方便 出 发 ,一 般 取 自然 对 
Ж е 为 底 。 估 计 概 率 分 布 的 最 大 炳 方法 ,是 以 炳 最 大 为 准则 ,利用 概率 密度 函数 直 
接 求 得 测量 不 确定 度 的 值 ,所 以 这 种 方法 是 主观 假设 少 的 评估 方法 。 
根据 贝 叶 斯 理论 ,后 验 信息 的 概率 分 布 被 理解 为 在 考虑 现 有 信息 基础 上 ,得 出 
对 随机 变量 的 最 后 合成 “图 像 ”, 即 在 确定 了 先 验 信息 和 样本 信息 的 概率 密度 函数 
后 ,可 利用 贝 叶 斯 方法 求解 出 后 验 信息 分 布 的 概率 密度 函数 
f= g(a) (18. 2) 
式 中 , f(z) 为 后 验 信息 的 概率 密度 函数 ;g(x) 为 先 验 信息 的 概率 密度 函数 ;L(xz) 为 
样本 信息 的 概率 密度 函数 。 后 验 信息 真 值 的 估计 ,不 确定 度 的 评估 均 可 通过 式 
(18. 2) 进 行 计算 。 为 了 在 小 样本 条 件 下 能 获得 较 好 的 参数 估计 ,应 充分 利用 参数 ， 
的 历史 资料 或 先 验 知识 ,得 到 一 个 可 靠 的 计算 结果 。 
接 下 来 ,使 用 拉 格 朗 日 算 子 法 来 求 式 (18. 1) 的 最 大 值 ,以 得 到 概率 密度 函数 
Zz) 的 最 佳 估 计 。 此 时 的 约 东 条 件 有 如 下 两 个 : 
| xdz=1 
(18. 3) 
[асдаг =mi, i-dhee 


式 中 必 为 所 用 和 矩阵 的 最 大 阶 数 ;m 为 已 知 的 概率 密度 函数 的 第 ; 阶 原点 矩 。 
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基于 上 面 BME 模型 的 软件 工具 SEKS-GUI(Kolovos et al. ,2006) 的 下 载 地 
HEJ http: // homepage. ntu. edu. tw/ —hlyu/software/SEKSGUI/SEKSHome. html, 

ТНР A HIRES Ж EE зу — 1 AF RE АЧ 
用 户 确定 的 需要 估计 的 空间 -时 间 点 上 的 属性 值 做 出 预测 ,最 后 还 可 以 把 各 种 预测 
结果 以 可 视 化 图 形 的 方式 输出 。 


18.2 $f 人 


SEKS-GUI 软件 的 输入 数据 可 以 由 多 条 统一 格式 的 记录 组 成 ,每 一 个 记录 应 
含有 4 个 数据 项 :六 坐标 ,> 坐标 .上 时 序 值 . 志 属性 值 。 每 一 条 记录 说 明 在 上 时 间 ， 
(zyy) 坐 标点 , 测 得 的 属性 值 为 &。 这 样 ,在 不 同时 间 不 同位 置 点 ,对 同一 种 属性 的 
多 次 取 值 ,就 可 以 得 到 多 条 统一 格式 的 记录 ,构成 了 可 以 被 SEKS-GUI 接受 的 数 
据 。 其 数据 文件 的 格式 可 以 为 纯 文本 的 txt 格式 ,或 者 电子 表格 xls 格式 。 其 中 每 
一 行 代表 一 个 记录 ,每 一 个 记录 的 4 个 数据 项 分 别 占用 每 一 行 的 第 1 到 第 4 列 , 每 
相 邻 两 列 数 据 项 用 空格 来 分 隔 。 

除了 给 出 输入 的 数据 ,用 户 还 需要 预先 确定 ,希望 在 哪些 时 间 - 空 间 点 上 对 属 
性 值 进行 预测 ,这 是 通过 OutGrid. txt 文件 来 确定 的 。 此 文件 的 书写 格式 如 下 : 


z-down-limit z-interval r-up-limit 
y-down-limit y-interval y-up-limit 
t-down-limit t-interval t-up-limit 


down-limit 代表 相应 坐标 轴 (z、y、t) 上 预测 点 的 最 小 坐标 值 ,up-limit 代表 最 
大 坐标 值 ,interval 代表 相应 坐标 轴 上 每 两 个 相 邻 预测 点 的 间距 值 。 

为 了 方便 读者 学 习 使 用 本 软件 ,我 们 附 有 一 份 具体 的 输入 文件 “bird flu 
case. xls” ,记录 的 是 中 国 范围 内 ,2004 一 2007 年 的 三 年 间 , 在 不 同时 间 、 不 同 地 点 
所 发 现 的 禽 流感 患 病 动物 的 数目 。 表 格 的 A 列 与 B 列 记录 的 是 禽 流 感 事件 的 地 
理 平面 直角 坐标 值 (x,y) ;表格 的 C 列 记录 的 是 当前 事件 的 发 生 时 间 段 i, 时 间 记 
录 单 位 为 季度 。 例 如 ,一 1 表示 发 生 在 2003 年 的 第 一 个 季度 内 ,4 二 6 表示 发 生 在 
2004 年 的 第 二 个 季度 内 ;表格 的 D 列 记录 的 是 当前 事件 所 涉及 的 患 病 动物 数目 ， 
即 相应 的 属性 值 。 具 体内 容 如 下 ; 

—270. 0 50. 0 230. 0 

180. 0 50. 0 580. 0 
1 3 16 
表示 在 z 轴 坐 标的 左右 端点 坐标 一 270 和 230 之 间 , 每 隔 50 距离 设 定 一 个 预测 
点 ;在 y 轴 坐标 的 上 下 端点 坐标 580 和 180 之 间 , 每 隔 50 距离 设 定 一 个 预测 点 。 
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这 样 就 形成 了 一 个 预测 点 的 阵列 。 第 三 行 表示 从 第 1 季度 到 第 16 季度 ,每 隔 3 个 
季度 , 设 定 一 个 时 间 预 测 点 。 


18.3 输 出 


SEKS-GUI 软件 利用 BME 模型 在 每 一 个 时 空 预测 点 上 做 出 的 预测 值 是 一 个 
随机 变量 。 在 软件 的 可 视 化 模块 中 ,提供 了 多 种 视图 ,来 全 方面 地 对 每 一 个 预测 点 
上 的 随机 变量 的 分 布 特点 进行 展示 。 

图 18.1 为 软件 的 可 视 化 模块 窗口 ,首先 点 击 窗口 右上 角 的 “Load SEKS-GUI 
output file” 按 钮 ,指定 由 BME 模型 所 生成 的 预测 结果 文件 (此 结果 文件 的 生成 步 
又 将 会 在 后 面 的 软件 使 用 部 分 中 详细 讲解 )。 然后, 在 窗口 中 部 的 “Map 
Displayed” 下 拉 菜 单 中 ,用 户 可 以 选择 不 同 的 视图 来 进行 输出 ,下 面 将 分 别 讲解 。 
这 里 注意 ,每 一 幅 视 图 只 能 展示 ,在 某 一 个 预测 时 间 点 上 ,在 全 部 预测 空间 上 属性 
值 的 分 布 特点 。 而 窗口 中 部 的 “t-Instance” 输 入 框 ,由 用 户 确 定 , 到 底 输出 在 哪 一 
个 预测 时 间 点 上 的 属性 值 分 布 视图 。 


7. VISUALIZATION 


‘This screen allows you to create à variety of plots using the estimations output 
Unless the feedback display indicates that such information i$ ситету preseck 
please stort by loading an output Sle created at the estenations stage 


ama reno won] 
WDR 0 18 
Choose a map to display -| 


JV / 
—— 


C. 
J 





图 18.1 可 视 化 模块 窗口 


如 果 点 击 下 拉 菜 单 “Map Displayed” 中 的 “Mean of the variable estimation PDF” i 
项 ,就 会 输出 如 图 18. 2 所 示 的 视图 。 视 图 中 的 zy 轴 表 示 被 预测 空间 的 实际 т-у A 
标 轴 。 视 图 中 用 不 同 的 颜色 指示 相应 位 置 点 上 预测 出 的 随机 变量 的 期 望 值 。 

如 果 点 击 下 拉 菜 单 “Map Displayed” fî fj “BME: Size of BME estimation 
confidence interval” 选 项 ,就 会 输出 如 图 18. 3 所 示 的 视图 。 视 图 中 的 > 轴 仍 然 
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图 18.3 预测 置信 区 间 视 图 
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表示 被 预测 空间 的 实际 т-у 坐标 轴 。 视图 中 用 不 同 的 颜色 指示 相应 位 置 点 上 预测 
出 的 随机 变量 在 指定 的 置信 水 平 上 .其 置信 区 间 的 大 小 值 。 某 位 置 上 的 置信 区 间 
越 大 ,表示 对 该 位 置 属性 值 的 预测 越 不 确定 ,反之 亦 然 。 

如 果 点 击 下 拉 菜 单 <Map Displayed” 中 的 “Estimation error standard deviation" 6 
项 ,就 会 输出 如 图 18. 4 所 示 的 视图 。 视 图 中 的 т-у 轴 仍 然 表 示 被 预测 空间 的 实际 
ay bd, 视图 中 用 不 同 的 颜色 指示 相应 位 置 点 上 所 预测 出 的 随机 变量 的 标准 差 。 
某 位 置 上 的 标准 差 越 大 ,表示 对 该 位 置 属性 值 的 预测 越 不 确定 ,反之 亦 然 。 


„гут "v 








or 
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图 18.4 预测 标准 差 视图 


18.4 软件 使 用 步 又 


SEKS-GUI 软 件 需 要 在 MatLab 环境 下 运行 。 启 动 MatLab 后 , 首先 将 
MatLab 软 件 的 当前 目录 设 定 为 SEKS-GUI 软件 所 在 的 子 目录 ,然后 ,在 MatLab 
的 命令 窗口 内 ,依次 运行 “startup” 和 “SEKSGUI” 命令 ,就 可 以 顺利 启动 SEKS- 
GUI 软件 。 

SEKS-GUI 启 动 后 会 首先 出 现 如 图 18. 5 的 窗口 ,选择 “BME Spatiotemporal 
Analysis” 选 项 ,再 点 击 “Start” 按 钮 ,就 会 出 现 如 图 18. 6 所 示 的 "1. IMPORT 
HARD DATA WIZARD” 窗 口 。 
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What would you like to do with SEKS-GUI? 


^! 
GBME Spatotemporai Analysis 
Visualization of existing SERS-GUI output 
Veew BMESb code help pages 


Choose any of he tasks above and push “Start 
10 po f'voug^ using this graptwcal ime rface. 
Each sereen wil! guide you to complete 
the necessary intermediate steps 
At any instance you can вее information on 
tne BMEib individual tbraries and commands 

hw nashina the "AME lin Hei baitan 


Cs] [ж] [=] 





图 18.5 软件 启动 窗口 


1. IMPORT HARD DATA WIZARD 


по Hard Data file is provided and you proceed to the next screen, 
ny other information entered below will be ignored 


you setum 10 Pes screen later, the setings las! dened here will appear 

To Ship Hard Data m this case push fe "Browse. * bution below 
and then "Cancer the action in the window to desetect any chosen fite Then push “Next 
Part iof it 

The Hard Data (HO) you wall be using needs to be provided In a file 
SEKE-OUI accepts HO information in one of tne folowing formats: 
Piain ASCI taxî (where data are separated by white space or taps), 

Excel foerat (ome single Spreadsheet, or the GecEAS standard format 

Please choose he format for your HO 


O ASCI mn © Excel formal О GeoEAS tormat 


ES T MUT OG 
Currant Hard Data file bird fu caso яз || Browse for Hard Dats flle } 


Hyour study is purely spatial (1 e., Time is not а yanata) ГО Spece-Only Domain 
please check Me box 





图 18.6 输入 数据 窗口 


在 图 18. 6 所 示 的 窗口 中 ,用 户 首先 根据 已 有 的 数据 文件 的 格式 , 点击“ASCII 
text" 8t $$ ^ Excel format" B x fi +H , уң “Browse for Hard Data file” 按 钮 ,指定 
用 户 数据 文件 的 文件 名 ,SEKS-GUI 软件 正确 读 取 用 户 数 据 文件 后 ,会 在 “Current 
Hard Data file” 信 息 框 中 显示 该 数据 文件 名 。 接着 点 击 “Next 污 ”按钮 ,会 出 现 如 
图 18.7 所 示 的 窗口 。 
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1. IMPORT HARD DATA WIZARD 


Рат: к 
Please provee ifi bores) Below the column nombess) on pe fie 
at contio fe COTO EDOM coaráimatis. Your ња wt ne protiem s Amerson space 
Yau may ingen wtoresaten fer ap з 2 dimension total. 


Û) е 1-D F ü only Prot bos for a data. (Wn 2-0 Fp ww rt wo Hones Por xy or c data. 
© Moordnel 53 above, for (ул OF сүй dam. 

(d) Иер distance z, height z and ime t, th the арава pw frst tw providing the calum: 

з 


. 
of mo s date in he DAS, Pew 2 dats in he pns, and las he ! cate in the DANS brasa 
2-08 coordinates ia Sie column 1 

Y Aus toonai japana) n Me (oun 


Ай Coordinates (optional) n Ble celum. 


Pinasa provide fie column number (1, 2, ef ) in he Же Mar contara Ihe Hard Data values 
srs Dato n те colunn d 


Се) 
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图 18.7 说 明 输入 数据 格式 窗口 


此 窗口 用 来 指定 用 户 数据 文件 中 > y 坐标 .上 时 序 坐标 以 及 属性 值 分 别 对 应 
于 每 一 行 记 录 的 第 几 列 。 一 般 情况 下 ,如 果 按 照 前 面 所 示 的 数据 文件 书写 格式 ,应 


3, » Лу 
该 在 此 窗口 的 4 个 输入 框 中 依次 填写 1.2.3.4. Hid" Next" fet 会 出 现 
如 图 18. 8 所 示 的 窗口 。 


3. OUTPUT GRID WIZARD 
provides estimates at pre-dedined spatiotemporal loc abons: 

Wn his сга you well need 12 define these loc atans as an o/fiogonal estimation ери gna 
You же now asked to provide an ASCE tavi о! a Excel file wh the grid specicatons. 
Intormation for sch dimension shoud occupy one Ine in the Me in Eecel, values or each dimension 

_ “МЧ! occupy consecutwe celis in тө lise ABC tont les muit contain apace-separd values. 


— 
Án a 3-D саве where Ihe desired output grid es as shown in the figure 


the proper menu choice i$ (A) An ASCII fmt fle should contain 3 ines 
wih Ne numbers Corresponding to the vanseles as positioned below 


* „таа 
Current Output nene _ 


_ 5000 Ошопа м 
Att vou mapping а postive values only quant? © Yes O No 


[es 





Ce) 


图 18.8 OutGrid 文件 输入 窗口 


在 此 窗口 中 ,点 击 窗口 上 部 的 下 拉 菜 单 ,选择 其 中 的 А 选项 ,使 指定 时 空 预测 
点 的 方式 如 前 面 所 示 。 然 后 点 击 “Browse for Output info file” 按 钮 ,指定 前 面 所 


; ха 
示 的 包含 OutGrid f& AY X fF Br fE (y W. Р "Мехо l, 会 出 现 
图 18.9, 
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4. DATA EXPLORATORY ANALYSIS 


Part B of Е: Data Distribution and Detrending 
Sot Data are mapped below using he mid-point value (f In category A) OF fir POF mean (categories 8-H) 
„An estimate of We vanathe's mean end is extracted from the dats by means ol « Gaussten amal smoofing 


Trend into available nnig Choose one of the options 
below to provide a bend 


O Load vend пе 
O Верт detrending 
Sradws 250 
T radius 8 
== M2 
| 7640.8341] = 
EIS 
__ 475301 
[16 2088) ^ : * [7| Maps for at 
I 
Map Displayed tneaee ^ i | C Etama foure 
Non detrended data distribution 司 15 E 有 паа [7] Add piots mask 


— Сева) [>e > J [Bi не] 





图 18.9 detrend 窗口 


此 窗口 “4. DATA EXPLORATORY ANALYSIS” 用 于 对 用 户 输入 的 原始 数 
据 进行 detrend 操作 。 用 户 需 要 根据 数据 的 特点 确定 S radius ЖП T radius 两 个 参 
数 的 值 ,其 意义 分 别 为 ,在 进行 平滑 算法 时 ,在 空间 轴 和 时 间 轴 上 的 最 大 搜索 范围 
半径 。 选 定 的 参数 值 填写 到 此 窗口 右 部 的 两 个 相应 输入 框 中 。 然 后 就 可 以 点 击 
“Begin detrending” 按 钮 ,开始 detrend 操作 。 计 算 完 毕 后 ,用 户 可 以 保存 生成 的 结 
果 文 件 , 便 于 以 后 再 次 对 这 批 数据 进行 detrend 操作 。 接 着 点 击 "Next 福 "按钮 ,会 
出 现 如 图 18. 10 所 示 的 窗口 。 


4. DATA EXPLORATORY ANALYSIS 


Part т of Wt Data Distr tution and Transformation 
BME analysis requires detrondad, noemaly dizrisuted data The detrenóed info is now Screened for normality. 
You can арра ether а normal score (ak anamorphosis) or а BoxCar ranstrmaton before proceeding teper 
| Max чо from CDF of normal N(0.1) is 1 7858s at data value 0.24873, | 
Data Siatistes мото E EE, 
count % 


Muimum | 50290) 
| 318275] 
Sw Derision: | 768 5162 





РА 18.10 变换 方式 选择 窗口 


# 18# BME Ж 型 * 249 • 





在 此 窗口 中 ,用 户 需要 在 窗口 右 部 的 “Transformation Menu" F fe dp di (t 

的 N-score 和 Box 这 两 种 变换 方式 中 选择 其 中 的 一 种 ,作用 于 当前 的 用 户 数据 。 

选择 的 标准 是 ,使 变换 后 的 用 户 数据 的 概率 曲线 与 正 态 分 布 的 概率 曲线 尽 可 能 地 

接近 吻合 。 一 般 情况 下 ,被 选中 的 都 是 N-score 变换 方式 。 接 着 点 击 “Next 福 ? 按 
,会 出 现 如 图 18. 11 所 示 的 窗口 。 


5. COVARIANCE ANALYSIS 
We wl descibe Me vont fv of few Wandern Fatê oen n Pr chide Ly Mews Of covanance edes 


(Poet | of k Eperimema Squtiotumger жй covariance fron data. 
Ta begin wif. please Dal austin) d ñq, су apariy rharacterenes and use De "Our auton 


Pet hpenn Covwisnce Ай J Onera tore 


Dat tande Amaat io finiri ae didus! aeneae 
Cubcatatans. of pÀ at once aor Dw lasi Cak abn 





图 18.11 用 户 数 据 协 方 差生 成 窗口 


此 窗口 是 用 来 生成 用 户 数据 的 协 方差 图 形 。 用 户 首先 需要 根据 数据 的 特点 ， 
指定 空间 和 时 间 上 的 最 大 相关 性 范围 值 ,分 别 填 人 “Max S Correlation Range” 和 
"Max T Correlation Range” 输 入 框 ;还 要 指定 在 空间 和 时 间 上 需要 计算 协 方差 的 
距离 跨度 的 个 数 ,分 别 填 人 “S Lags” 和 “T Lags” 滑 动 输入 框 。 然 后 ,用 户 可 以 点 击 
"Get experimental” 按 钮 ,开始 计算 用 户 数据 的 协 方差 图 形 , 并 显示 在 此 窗口 的 右 
部 。 接 着 点 击 " Next 福 "按钮 ,会 出 现 如 图 18. 12 所 示 的 窗口 。 


6. COVARIANCE ANALYSIS 
Part 8 of t FF a рањен al Салпы загс moset 
Mn wa: vie pow can Спаи û naqa mode! — achive Seperat w caviartance modas vm ap 
© 2 motel components эз Dal € cun fi the erpervrerd covariance called in fe provou pet 

Egerimertal £ мень Covanances уп кемиле асалу WT Айну Стао т 

‘Soest Coat Twrgeew Софье эмезе» 了 
моми +] Seectanect — ELI 
Е АРИЯ d T EIL ) aveces Брант 
' jm Y c Uu 


LI 1 


Terponi 14 
m 


Rance Model 
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图 18.12 ”模型 协 方差 调整 窗口 
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在 此 窗口 中 ,用 户 将 选择 参数 来 生成 一 个 模型 协 方差 图 形 , 和 上 一 窗口 生成 的 
用 户 数 据 协 方差 图 形 进 行 匹配 比较 。 通 过 调整 模型 参数 的 值 ,尽量 使 模型 和 用 户 
数据 的 协 方差 图 形 相 似 。 可 以 被 调整 的 模型 参数 有 :分 别 指定 空间 和 时 间 模 型 类 
型 的 “Spatial CovPart" #1“ Temporal CovPart” 下 拉 选 择 菜 单 ; 以 及 决定 当前 选 定 
模型 特性 的 “Sill”*”“Spatial”" 和 “Temporal”" 输 入 框 。 接 着 点 击 “Next 沁 ”按钮 ,会 出 . 
现 如 图 18.13 所 示 的 窗口 。 


6. BME ESTIMATIONS 
This 16 the stage where GWE estimates are obtained. Please choose from one ofthe available 
esimsaton 


you can ship this screen and proceed to Pe visualization screen using “Next” 


"Bette calculate BME Conf. intervals 
Confidence marval Options 


Set the probatelty confidence level as desired 
(160910 percentte) using the sider or the box 


L. Ч% 4 | 
CEA 
(Севек) [ea > ) 





图 18. 13 预测 文件 生成 窗口 


此 窗口 最 后 用 来 生成 BME estimation 文件 ,此 文件 可 以 用 于 SEKS-GUI Ж 
件 的 可 视 化 部 分 。 首 先 需要 在 窗口 上 部 的 下 拉 菜 单 中 选择 需要 生成 的 预测 文件 的 
类 型 ,一 般 情况 下 ,是 选择 预测 信息 最 完备 的 “BME confidence intervals (obtain 
the BME posterial PDF and CD” 选 项。 然后 , 需 设 定 几 个 参数 的 值 。 窗 口中 部 的 
“Percentile” 滑 动 输入 框 用 来 指定 置信 水 平 值 ;窗口 左下 部 的 “Max Hard Data” 
入 框 用 来 指定 生成 某 位 置 点 的 预测 值 时 ,需要 考虑 的 临近 点 的 最 大 数目 ;窗口 中 下 
部 的 “Max S Range”" 和 “Max T Range” 输 入 框 用 来 指定 临近 的 范围 半径 ;窗口 右 
下 部 的 “S/T 下 metric parameter" 输 入 框 用 来 确定 时 空 距离 系数 。 时 空 距离 的 计算 
公式 为 : 

[时 空 距离 ] 二 [空间 距离 ] 十 [S/T Metric Parameter) « [时 间距 离 ] 

上 面 的 参数 设 定 完毕 后 ,点 击 “Begin Estimation” 按 钮 ,就 可 以 生成 预测 文件 ， 
用 于 前 面 已 经 讲 过 的 可 视 化 部 分 。 
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时 空 预报 现 有 方法 有 单 变量 外 推 法 ,如 时 间 序 列 .Kriging 方法 等 ;多 变量 回归 
和 数据 自 适应 模型 ,如 多 元 线性 回归 、 空 间 回归 ,神经 网 络 等 ;以 及 动力 学 模型 ,如 
经 济 学 的 CGE 模型 .大 气 科 学 中 的 GCM 模型 和 地 理学 中 的 元 胞 自动 机 CA 和 自 
主体 ABM 模型 等 。 数 据 自 适应 方法 用 数据 驱动 形成 模型 结构 如 神经 网 络 、 遗 传 
规划 等 ;知识 推理 挖掘 数据 中 的 条 件 概率 生成 规则 。 


19.1 R Ж 


一 个 具有 演化 过 程 的 对 象 的 未 来 状态 是 可 以 预期 的 。 例 如 ,不 同 的 生物 具有 
不 同 的 由 多 个 片段 顺序 组 成 的 生命 周期 。 观 测 数据 是 这 一 生命 过 程 的 数值 表达 ， 
这 些 数据 集 内 部 数 蕴 含 了 生命 演化 结构 。 演 化 树 是 一 种 基于 数据 重 构 生命 演化 过 
程 ,反映 演化 规律 的 方法 。 基 于 演化 的 树 形 结构 ,可 以 对 每 个 个 体 的 未 来 态势 进行 
预测 预报 和 模拟 。 

由 于 自然 和 人 文豪 赋 的 空间 不 均匀 性 ,对 象 的 不 同类 型 和 不 同 阶段 在 空间 上 
同时 存在 ,这 为 以 空间 换 时 间 ,将 横断 面 数据 建立 演化 树 提供 了 可 能 性 ;再 以 演化 
树 预测 空间 分 布 对 象 的 时 间 演 化 。 以 下 以 城市 结构 和 发 展 阶段 为 例 介绍 演化 树 构 
建 方法 ,并 将 其 运用 于 城市 扩张 土地 占用 预测 ( 刘 旭 华 ,2005) 。 


15.2 € 例 
1. 城市 演化 


由 农业 经 济 向 工业 经 济 再 向 服务 经 济 的 过 渡 , 是 经 济 发 展 的 一 般 规律 。 伴 随 
着 工业 化 进程 ,社会 经 济 结构 表现 出 一 定 的 阶段 性 。 城 市 化 外 表现 为 三 大 规律 : 首 
先 ,城市 化 进程 要 经 历 发 生 \ 发 展 .成 熟 3 个 阶段 ,初期 速度 缓慢 ,中 期 加 快 ,成 熟 期 
又 趋 缓 ; 其 次 ,大 城市 超 先 增长 ,因为 大 城市 成 本 大 大 低 于 中 小 城市 成 本 ,加 之 现代 
化 的 大 城市 文明 产生 的 引力 ;第 三 ,城市 化 与 经 济 发 展 双向 互 促 共 进 :城市 化 水 平 
与 人 均 GDP 呈正 相关 关系 。 

城市 化 的 一 个 很 重要 的 表现 形式 是 城市 的 外 延 增长 ,因而 城市 化 以 及 经 济 发 
展 与 城市 土地 扩张 有 很 重要 的 关系 。 
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2. Ad ik 

图 19. 1 描述 了 城市 演化 树 构造 和 运用 于 土地 占用 预测 的 思路 。 对 全 国 城 
市 的 社会 经 济 人 口 数据 进行 层次 聚 类 ,得 到 各 城市 的 类 型 及 其 发 展 阶段 , 据 此 构 
建 马 尔 科 夫 链 和 演化 树 。 作 为 城市 演化 树 的 应 用 案例 之 一 ,建立 城市 类 型 发 展 
阶段 与 城市 土地 占用 之 间 的 相关 关系 , 据 此 对 各 城市 的 城市 扩张 和 土地 占用 作 
出 预测 






马尔 可 夫 链 ; 
演化 树 


图 19.1 城市 演化 树 构造 方法 及 其 应 用 举例 


城市 扩张 的 土 
地 占用 预测 


3. KHE 


第 五 次 人 口 普查 数据 中 分 行业 人 口 资料 将 城市 各 种 经 济 活动 分 成 16 个 行业 ， 
分 别 是 农林 牧 渔 业 , 采 气 业 ,制造 业 , 电 力 , 煤 气 及 水 的 生产 和 供应 业 , 建 筑 业 ,地 质 
勘查 业 、 水 利 管理 业 , 交 通 运输 .仓储 及 邮电 通信 业 , 批 发 和 零售 贸易 ,餐饮 业 , 金 融 
保险 业 , 房 地 产业 ,社会 服务 业 ,卫生 ,体育 和 社会 福利 业 , 教 育 ,文化 艺术 及 广播 电 
影 电视 业 , 科 学 研究 和 综合 技术 服务 业 ,国家 机 关 , 政 党 机 关 和 社会 团体 ,其 他 行 
业 。 由 于 多 元 聚 类 分 析 中 并 非 变量 越 多 越 好 ,因此 将 不 重要 的 .引起 共 线性 的 变量 
剔除 。 由 于 农林 牧 渔 业 人 口 比重 与 其 他 多 个 行业 人 口 具有 较 高 的 相关 性 ,并 且 该 
行业 不 能 反映 以 非 农 业 为 主 的 城市 职能 ,首先 将 该 行业 剔除 ;其 他 行业 由 于 比重 较 
小 , 且 不 具有 稳定 内 涵 , 故 剔 掉 ;由 于 批发 和 零售 贸易 ,餐饮 业 人 口 比重 与 其 他 具有 
较 小 比重 的 多 个 第 三 产业 的 行业 人 口 具 有 共 线 性 ,借鉴 周一 星 和 和 孙 则 听 (1997) 的 
做 法 ,将 金融 保险 业 , 房 地 产业 ,社会 服务 业 , 卫生 体育 和 社会 福利 业 , 教 育 、 文 化 
艺术 及 广播 电影 电视 业 , 科 学 研究 和 综合 技术 服务 业 合 并 成 其 他 第 三 产业 ,继续 进 
行 共 线性 检验 ,发 现 其 他 第 三 产业 仍 与 批发 和 零售 贸易 ,餐饮 业 相关 显著 产生 共 线 
性 , 故 根据 重要 性 将 其 他 第 三 产业 剔 掉 后 通过 共 线 性 检验 。 | 

此 外 ,借鉴 周一 星 和 孙 则 听 (1997) 的 做 法 ,将 具有 特殊 性 的 采掘 业 ( 包 括 煤 
炭 采 选 业 、 石 油 和 天 然 气 开 采 业 、 黑 色 金 属 矿 采 选 业 、 有 人 色 金 属 矿 采 选 业 、 建 筑 材 
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料及 其 他 非 金属 矿 采 选 业 、 采 盐 业 和 木材 及 竹材 采 选 业 ) 再 加 入 采 据 业 产 值 占 城 
市 工业 产值 比重 变量 ,用 来 判别 采掘 业 城 市 。 旅 游 业 是 一 项 重要 的 城市 职能 , 采 
用 周一 星 和 和 孙 则 听 (1997) 对 旅游 城市 职能 的 分 类 结果 ,对 于 作为 主导 产业 职能 
的 旅游 业 , 按 其 在 产业 结构 中 的 位 置 和 重要 性 ,依次 指定 其 权重 为 0.5.0.3.0.2 ` 
和 10. 1, 

最 后 用 于 分 类 的 变量 简称 分 别 是 采掘 业 ,制造 业 , 水 电 煤气 业 、 建 筑 业 、 地 质 期 
探 业 、 交 通 邮 电 业 、 商 业 、 机 关 团 体 、 采 掘 业 产值 比重 和 旅游 职能 指数 ,首先 进行 
[一 1,1J 标 准 化 ,然后 进行 多 元 聚 类 .。 


4. 阶段 划分 


衡量 一 个 国家 或 地 区 的 工业 化 水 平和 发 展 阶段 有 多 种 理论 和 指标 ,常用 的 是 
H. Chenery 的 “标准 工业 化 结构 转换 模型 "结构 转换 ,是 指 传 统 部 门 向 现代 部 门 
转化 ,最 终 使 国民 经 济 由 传统 与 现代 并 存 的 二 元 结构 转变 为 单一 现代 部 门 的 一 元 
结构 。 全 过 程 分 为 逐步 推进 的 三 个 阶段 :D 初 级 产品 阶段 , 即 经 济 结构 转变 的 起 始 
阶段 ;四 工业 化 阶段 ,这 是 经 济 结构 迅速 变化 的 阶段 ,此 时 的 经 济 重心 由 初级 产品 
生产 向 制造 业 生产 转移 ,转移 的 重要 标志 是 制造 业 对 经 济 增长 的 贡献 将 高 于 初级 
产品 生产 的 贡献 ;名 发 达 经 济 阶段 ,此 时 传统 的 农业 部 门 完 成 了 现代 化 改造 ,整个 
国民 经 济 转变 为 一 元 结构 ， 

为 建立 城市 演化 树 , 选 择 钱 纳 里 的 人 均 GDP、 产 业 结构 ,就 业 结 构 标 准 和 有 关 
城市 化 阶段 理论 推导 得 到 判断 工业 化 阶段 的 指标 体系 ( 表 19. 1). 


表 19.1 w 2005) 


就 业 结构 / н 


EU 第 三 | 第 一 | 第 二 | 第 三 
CE 产业 a 产业 | 产业 





资料 来 源 ; —— at Ager A 1989), (BEK, 2004), CELL. 2004) 


(1) 人 均 GDP, A5 GDP 是 一 个 国家 或 地 区 按 人 口 平均 的 产 出 水 平 ,是 一 
国 或 地 区 生产 率 水 平 的 反映 ,是 其 生存 和 发 展 的 基础 ,也 是 实现 工业 化 的 前 提 
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条 件 。 
(2) 产业 结构 。 产 业 结 构 反 映 了 一 个 国家 或 地 区 的 经 济 实力 、 技 术 进 步 和 竞 
争 力 。 工 业 化 作为 产业 结构 变动 最 迅速 的 时 期 ,其 演进 阶段 也 可 以 通过 产业 结构 
的 变动 反映 出 来 。 根 据 赛 尔 奎 因 (M. Syrquin) 和 钱 纳 里 等 的 研究 成 果 , 产 业 结构 
具有 一 定 的 规律 性 :从 三 次 产业 GDP 结构 的 变动 看 ,在 工业 化 起 点 ,第 一 产业 的 比 
重 较 高 ,第 二 产业 的 比重 较 低 , 随 着 工业 化 的 推进 ,第 一 产业 的 比重 持续 下 降 , 第 二 
产业 的 比重 迅速 上 升 ,而 第 三 产业 的 比重 只 是 缓慢 提高 。 具 体 衡 量 标准 是 : 当 第 一 
产业 的 比重 低 到 20% 以 下 ,第 二 产业 的 比重 上 升 到 高 于 第 三 产业 而 在 GDP 结构 
中 占 最 大 比重 时 ,工业 化 进入 中 期 阶段 ; 当 第 一 产业 的 比重 再 降低 到 10% 左 右 、 第 
二 产业 的 比重 上 升 到 最 高 水 平 ,工业 化 则 到 了 结束 阶段 , 即 后 期 阶段 ;此 后 第 二 产 
业 的 比重 转 为 相对 稳定 或 有 所 下 降 。 

(3) 就 业 结构 。 就 业 结构 指 在 国民 经 济 各 个 组 成 部 分 中 就 业 的 劳动 力 之 间 的 
数量 构成 关系 。 劳 动力 结构 的 变化 反映 工业 化 过 程 中 劳动 力 由 生产 率 低 的 部 门 向 
生产 率 高 的 部 门 的 转移 ,和 产业 结构 的 变化 一 样 ,可 以 清楚 地 看 到 经 济 增长 方式 的 
转变 过 程 。 因 此 ,就 业 结构 是 反映 一 个 国家 或 地 区 经 济 发 展 阶段 的 重要 标志 。 三 
次 就 业 结构 变化 的 趋势 是 随 着 工业 化 的 起 步 和 推进 ,第 一 产业 劳动 力 比 重 不 断 下 
降 , 第 二 产业 和 第 三 产业 劳动 力 比 重 不 断 提高 ; 当 工 业 化 发 展 到 一 定 阶 段 ,第 二 产 
业 劳动 力 比重 的 变化 不 再 显著 ,大 量 农业 劳动 力 开始 向 第 三 产业 转移 ,并 导致 第 一 
产业 劳动 力 比 重 的 持续 下 降 与 第 三 产业 劳动 力 比重 的 持续 上 升 。 

(4) 城市 化 水 平 。 城 市 化 水 平 是 城市 人 口 占 总 人 口 的 比例 ,本 章 采 用 城市 非 
农业 人 口 占 总 人 口 比 重 作为 测度 。 城 市 化 意味 着 城市 人 口 占 总 人 口 的 比重 相对 提 
高 。 城 市 在 工业 化 阶段 的 国民 经 济 发 展 过 程 中 发 挥 着 经 济 .政治 ,文化 .商贸 .金融 
和 信息 中 心 等 方面 的 作用 。 通 过 城市 的 优先 发 展 带动 区 域 经 济 和 社会 发 展 是 各 国 
在 工业 化 阶段 的 普遍 经 验 。 城 市 化 水 平 的 高 低 以 及 城市 结构 的 合理 化 程度 已 经 成 
为 衡量 一 个 国家 或 地 区 现代 化 程度 的 重要 标志 之 一 。 

随 着 人 均 GDP 水 平 的 增长 和 发 展 阶段 的 提升 ,增加 值 构成 和 就 业 结构 等 都 将 
发 生变 化 。 其 特征 是 :增加 值 构成 在 初级 产品 生产 阶段 到 工业 化 中 级 阶段 之 间 变 
化 比较 迅速 ,而 在 工业 化 中 级 阶段 到 发 达 经 济 初级 阶段 之 间 变 化 比较 缓慢 ;就 业 结 
构 在 初级 产品 生产 阶段 到 工业 化 中 级 阶段 之 间 变 化 较 快 ,在 工业 化 中 级 阶段 到 发 
达 经 济 初级 阶段 之 间 变 化 更 快 。 总 的 看 来 ,就 业 结构 一 直 处 于 快速 变动 之 中 ;而 增 
加 值 构成 在 工业 化 中 级 阶段 之 前 变化 比较 迅速 ;在 工业 化 中 级 阶段 后 变化 比较 
缓慢 。 i 
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5. 城市 类 型 


顾 朝 林 在 1992 年 出 版 的 《中国 城 市 体系 》 一 书 提出 把 职能 体系 分 成 政治 中 心 、 
交通 中 心 .矿工 业 城 镇 和 旅游 中 心 等 四 个 体系 及 若干 亚 体 系 和 若干 子 集 来 加 以 阐 
述 ;周一 星 和 孙 则 听 (1997) 发 表 了 覆盖 1990 年 全 国 465 个 城市 的 职能 分 类 体系 ， 
他 们 采用 1990 年 城市 市 区 分 行业 社会 劳动 者 资料 和 工业 产值 资料 ,通过 多 变量 聚 
类 分 析 的 沃 德 误差 法 和 纳尔逊 统计 分 析 原 理 , 得 到 中 国 1990 年 城市 职能 综合 分 类 
体系 。 

采用 K-MEAN 分 割 分 类 将 253 个 城市 分 成 8 类 。 在 每 一 城市 职能 类 型 内 ， 
将 具有 相同 的 初期 经 济 阶 段 和 末期 经 济 阶 段 的 城市 划 为 一 类 , 共 分 成 60 个 子 类 。 
根据 表 19. 2 可 得 8 类 城市 的 主要 职能 特征 为 (每 个 类 后 注 明 该 类 中 超过 平均 值 加 
0. 5 个 标准 差 的 行业 部 门 及 超过 平均 值 以 上 几 个 标准 差 )。 


Ж 19.2 2000 年 中 国 各 类 型 城市 各 行业 职工 平均 比重 和 标准 差 ( 刘 旭 华 ,2005) 
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1. 无 主导 产业 的 小 型 综合 性 城市 。 
H. 交通 ,建筑 业 \ 水 电 煤 气 明显 的 综合 城市 (交通 1, 建 筑 1, 水 电 煤气 1, 商 业 
0. 5, 行 政 0.5, 地 质 0.5, 制 造 0. 5)。 












下 .矿业 城市 (采掘 2, 水 电 煤 气 1, 交 通 0. 5, 地 质 0.5). 

N. 工商 业 明显 的 中 等 综合 性 城市 。 

V. 行政 明显 的 综合 性 城市 (行政 1 ,交通 0. 5, 水 电 煤 0.5, 地 质 0. 5). 
М. 工商 业 职 能 显著 的 旅游 城市 (旅游 1 ,制造 0.5, 商 业 O. 5, 建 筑 0.5). 
U. 工业 职能 显著 的 商业 城市 (商业 1 ,制造 0. 5 ,建筑 0.5)。 

WL 制造 业 城 市 (制造 2). 

6， 演 化 树 


根据 上 述 指 标 计算 了 1990 年 和 2000 年 的 253 个 地 级 城市 所 处 的 经 济 阶段 ， 
其 中 城市 化 水 平 使 用 非 农 业 人 口 比 重 来 计算 发 展 阶段 。 城 市 演化 树 清晰 形象 地 显 
示 出 了 各 城市 类 型 及 所 处 阶段 ;演化 树 用 马尔 可 夫 链 表达 方便 了 计算 

图 19. 2( 局 部 放大 图 19. 3)。 通 过 树 的 形式 画 出 中 国 253 个 地 级 以 上 城市 
在 2000 年 的 职能 类 型 和 所 处 的 发 展 阶段 , 即 城市 发 展 树 。 其 中 ,每 个 树叶 代表 
一 个 城市 ,城市 名 后 的 编码 为 城市 类 型 子 类 编码 。 大 致 上 , 树 的 高 度 越 高 ,经 济 
发 展 阶段 越 高 ;而 每 一 类 型 的 一 个 枝 干 上 ,城市 是 按 2000 年 人 均 GDP 从 高 到 
低 \ 在 树干 上 是 从 主干 到 末梢 排列 的 , 即 离 主 干 越 近 , 人均 GDP 越 高 ,城市 发 展 
越 早 ,反之 , 则 城市 起 步 晚 或 发 展 较 慢 。 从 图 19. 2 可 以 看 出 ,城市 扩张 率 较 高 的 
类 型 多 处 于 较 高 级 经 济 阶段 ,如 前 所 述 , 当 城市 经 济 进入 工业 化 中 后 期 ,城市 进 
人 加 速 发 展 阶段 ,同时 与 之 伴随 的 将 是 城市 建设 用 地 的 大 量 扩张 ,而 开 、 芽 类 型 
(交通 建筑 业 综 合 城市 和 矿业 城市 ) 尽 管 处 于 较 高 级 阶段 ,但 城市 发 展 导致 的 城 
市 建设 用 地 的 增加 率 并 不 大 ,这 充分 说 明 城 市 建设 用 地 的 增长 与 城市 类 型 密切 
相关 ,每 种 类 型 的 城市 土地 增长 具有 不 同 的 驱动 力 , 但 都 受 经 济 发 展 的 左右 ,是 
工业 化 .城市 化 的 一 个 内 生 过 程 。 
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图 19.3 城市 发 展 树 ( 局 部 放大 ) 及 马尔 可 夫 链 


借用 马尔 可 夫 链 来 表示 各 类 型 城市 发 展 阶段 间 的 转换 ,如 图 19. 4 所 示 。 其 
中 每 个 箭头 代表 一 个 子 类 ,箭头 表示 2000 年 到 达 阶 段 , 箭 尾 表示 1990 年 所 处 阶 
段 。 箭 头 上 标注 数字 为 (1990 一 2000 年 状态 发 生 改 变 的 城市 数目 ,城市 扩张 率 
平均 值 )。 从 图 19. 4 可 以 看 出 ,在 城市 经 济 的 高 级 阶段 ,工商 业 城 市 带 来 了 显著 
的 城市 用 地 扩张 。 从 长 期 看 ,8 种 类 型 间 可 能 还 会 存在 类 型 转换 , 即 某 类 型 中 的 
城市 跳 转 到 其 他 类 型 。 虚 箭头 a 表示 类 型 I 可 能 会 跳 转 到 类 型 ,由 于 这 两 类 
主要 是 职能 强度 上 的 差别 , 均 是 综合 性 城市 , 随 着 城市 发 展 ,无 主导 职能 的 小 型 
综合 城市 将 会 逐渐 转变 为 中 等 综合 性 城市 ; 虚 箭 头 b.c 表 示 当 矿业 城市 走向 老 
年 后 ,将 会 寻求 转向 其 他 类 型 ,可 能 会 由 于 原来 的 化 工业 基础 转 为 制造 业 城 市 ， 
也 可 能 会 由 于 较 好 的 交通 基础 转 为 商业 城市 ; 虚 箭头 d 表示 某 些 旅 游 业 城市 可 
能 会 转 为 商业 城市 。 | 


7. 城市 化 与 土地 占用 


研究 发 现 城市 占用 土地 与 城市 类 型 和 城市 发 展 阶段 有关。 例如 ,相同 发 达 程 
度 的 工业 城市 比 矿 业 城市 具有 更 高 的 城市 扩张 率 。 在 同一 种 城市 类 型 内 ,目前 处 
于 较 低 级 经 济 阶段 的 城市 外 延 增长 会 遵循 已 发 展 到 更 高 阶段 的 城市 的 土地 增长 规 
律 。 某 些 类 型 城市 (如 制造 业 或 商业 为 主 ) 自 工业 化 初期 .中 期 开始 , 随 着 工业 化 发 
展 的 加 速 , 城 市 土地 扩张 也 表现 为 加 速 增长 ,只 要 政策 等 外 界 条 件 允 许 , 城 市 核 会 
由 于 内 部 压力 和 (或 ) 外 部 推力 不 断 打 破 其 平衡 状态 保持 加 速 扩张 ,直到 发 达 经 济 
阶段 仍 保持 较 高 的 增长 率 ;而 另外 一 些 城市 由 于 职能 强度 不 够 ,扩张 缓慢 ;其 他 一 
些 专 业 化 城市 (如 单一 主导 职能 的 旅游 城市 ) 土 地 受 经 济 阶段 的 提升 影响 不 大 , 即 
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使 经 济 发 展 到 发 达 阶 段 仍 保持 较 低 的 城市 外 延 增长 率 ; 而 一 些 矿业 城市 尽管 在 其 
经 济 阶 段 的 变迁 中 发 生 的 城市 土地 增长 率 不 大 ,但 由 于 受 自 ZA VERBI" pn пу il 
量 的 制约 ,矿业 城市 等 必然 要 经 历 “ 幼 年 一 青 中 年 老年 "这 一 发 展 过 程 ,因此 矿业 
城市 原 有 的 主导 产业 开始 衰弱 时 多 半 会 扶持 和 发 展 其 第 二 位 主导 产业 ,从 而 路 到 
其 他 类 型 ,遵循 其 他 类 型 城市 外 延 增长 的 一 般 规律 。 

为 量化 城市 扩张 占 地 与 城市 类 型 和 发 展 阶段 的 关系 ,将 各 指标 表征 的 发 展 阶 
段 以 及 人 均 GDP, 非 农 人 口 比 重 , 非 农 产 业 比重 、 非 农 就 业 比重 等 进行 了 相关 性 分 
析 , 见 表 19. 3。p4 指 1987—2000 年 城市 建设 用 地 的 增加 量 ;p4_area 指 p4 与 城市 
行政 面积 的 比值 ;tpop2k 指 2000 年 城市 市 区 总 人 口 ;agdp90stg 指 1990 年 人 均 
GDP 表征 的 经 济 阶 段 ;gdp90stg 指 1990 年 产业 结构 表征 的 经 济 阶 段 ;lbr90stg 指 
1990 年 就 业 结构 表征 的 经 济 阶段 ;urb9ostg 指 1990 年 城市 化 水 平 表征 的 经 济 阶 
段 ;agdp2kstg {Н 2000 年 人 均 GDP 表征 的 经 济 阶段 ;gdp2kstg 指 2000 年 产业 结 
构 表征 的 经 济 阶 段 ;lbr2kstg 指 2000 年 就 业 结构 表征 的 经 济 阶 段 ; urb2kstg 指 
2000 年 城市 化 水 平 表征 的 经 济 阶段 ;chagdp 指 1990~2000 年 人 均 GDP 的 变化 ; 
chnagrpoprate 指 1990 ~ 2000 年 非 农 业 人 口 比重 的 变化 ; chgnagrlbrrate 指 
1990 一 2000 年 非 农 就 业 比 重 的 变化 ;chgnagrgdprate 指 1990~2000 年 非 农 产 业 比 
重 的 变化 。 城 市 扩张 率 与 城市 类 型 的 相关 性 为 0. 4, 在 0.01 的 显著 性 水 平 下 显著 
相关 。 从 表 19. 3 可 以 看 出 ,城市 扩张 与 城市 所 处 的 经 济 阶段 和 阶段 提升 是 显著 相 
关 的 ,表明 从 经 济 发 展 阶段 的 角度 考察 城市 建设 用 地 的 变化 是 可 行 的 因此 ,可 以 
用 城市 演化 树 来 预测 各 城市 的 土地 占用 。 

1 (小 型 综合 性 城市 ) 、 帮 (矿业 城市 )、 (中 等 综合 性 城市 ) 类 型 城市 所 处 的 经 
济 阶段 大 多 较 低 ;而 如 (商业 城市 如 类 (制造 业 城市 ) 大 多 已 经 发 展 到 工业 化 高 级 
阶段 。 行政 明显 的 综合 性 城市 .商业 城市 和 制造 业 城市 的 城市 土地 扩张 率 较 高 ,无 
主导 产业 的 小 型 综合 性 城市 .矿业 城市 和 旅游 城市 的 城市 土地 扩张 率 较 低 ;所 有 类 
型 城市 的 共性 是 越 向 工业 化 高 级 阶段 发 展 ,城市 土地 扩张 率 越 高 ;跨越 阶段 越 大 ， 
扩张 率 越 高 。 

除 个 别 阶 段 的 旅游 城市 ,商业 城市 和 制造 业 城市 的 土地 扩张 率 的 方差 较 高 外 ， 
其 他 类 型 和 阶段 的 城市 扩张 率 方差 是 可 以 接受 的 。 而 变动 较 大 的 城市 类 型 和 阶段 
主要 是 由 于 其 均值 本 身 就 比较 高 ,而 且 工商 业 城市 本 身 的 经 济 发 展 规律 比较 复杂 ， 
城市 建设 和 发 展 除了 受 经 济 发 展 规律 左右 外 ,还 受 国 家 政策 的 影响 比较 大 。 中 国 
东部 地 区 快速 的 耕地 减少 与 改革 开放 和 招商 引资 政策 带 来 的 开发 区 建设 热潮 具有 
很 大 关系 ， 而 据 分 析 东 部 地 区 的 城镇 扩张 与 耕地 减少 的 相关 性 高 达 0. 88, ,同时 东 
部 地 区 具有 较 好 的 经 济 基础 (stage90 较 高 ) 的 城市 更 容易 招商 引资 进行 开发 区 建 
iz. 总 而 言 之 ,可 以 认为 工商 业 城 市 的 土地 增长 率 的 扰动 与 经 济 政策 有 关 。 当 然 ， 
也 不 排除 个 别 城市 发 展 的 特殊 性 ， 即 某 类 型 中 存在 异常 点 ， 如 旅游 业 城 市 中 苏州 的 
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城市 扩张 率 高 达 38. 876 ,扬州 的 扩张 率 为 22.97%, 

许多 时 空 数据 是 时 空 过 程 的 数字 记录 ,因此 不 是 一 堆 冰 冷 机 械 的 数据 ,而 是 生 
命 过 程 的 附 体 ， 生 命 过 程 是 有 演化 规律 的 。 演 化 树 理论 提供 了 基于 时 空 数据 集 重 
塑 生命 系统 的 方法 。 在 演化 树 的 构架 下 ,对 象 的 未 来 发 展 方向 和 规模 变 得 清晰 和 
可 预见 。 

以 城市 演化 为 例 , 基 于 城市 数据 集 构建 了 城市 演化 树 , 每 个 城市 都 置 于 这 棵 树 
的 某 个 位 置 , 树 枝 表示 不 同 的 发 展 类 型 或 城市 类 型 , 叶 记录 某 个 城市 , 叶 在 树枝 上 
的 位 置 表示 该 城市 发 展 的 阶段 。 某 个 城市 的 演化 将 沿 着 其 所 在 树枝 的 方向 ,与 它 
邻近 的 较 早 的 叶子 城市 现状 ,就 是 其 未 来 近期 的 可 能 状态 。 虽 然 存 在 有 意 无 意 的 
变异 , 即 超 叶 甚至 超 枝 的 跨越 式 发 展 。 作 为 应 用 之 一 ,城市 化 占 地 与 城市 类 型 和 发 
. 展 阶段 规模 密切 联系 ,可 以 基于 城市 演化 树 对 其 进行 预测 和 分 析 。 


20% Meta # px 


统计 学 的 目的 是 揭示 研究 对 象 不 同方 面 的 统计 特征 ;而 系统 模型 可 以 揭示 研 
究 对 象 各 组 成 要 素 之 间 的 相互 关系 并 进行 模拟 预报 和 情景 分 析 。 系 统 模 型 的 建立 
通常 需要 对 事件 物理 机 理 透彻 了 解 ,如 大 气 模型 .水文 模型 和 传染 病 模型 等 ,但 是 ， 
在 资源 环境 领域 经 常 是 主导 机 制 不 明显 ,系统 建 模 困难 。 如 何 根据 观测 数据 ,进行 
系统 建 模 ,“Meta Modeling” 系 统 建 模 思 想 (Wang et al. ,2008c) ,为 数据 驱动 的 系 
统 建 模 提供 了 一 个 解决 方案 。 

"Meta Modeling "也 为 数据 分 析 集 成 创新 提供 了 一 个 新 思路 。 研 究 人 员 只 需 
收集 研究 对 象 的 前 人 各 种 研究 成 果 , 运 用 Meta Modeling 框架 ,就 可 以 反 演 各 要 素 
之 间 相 互 作 用 的 系统 联系 ,得 到 新 的 发 现 。 前 人 的 研究 成 果 越 多 ,Meta Modeling 
的 系统 关系 网 就 越 扩展 ,新 发 现 新 推理 就 越 多 。 


20.1 JE 理 


不 同 统计 模型 各 具有 其 擅长 刻画 的 方面 ,揭示 事件 的 某 个 侧面 。 将 两 个 统计 
模型 通过 可 能 存在 的 共同 项 连接 起 来 ,进一步 将 所 有 模型 两 两 连接 成 变量 网 络 ; 然 
后 ,建立 严格 的 数学 符号 动力 学 ,通过 变量 网 络 进行 多 变量 联动 推理 。 


20.2 Ж 例 


以 2003 年 3 月 4 日 至 6 月 20 日 北京 市 SARS 流行 病 暴 发 的 11108 个 SARS 
密切 接触 者 空间 点 位 数据 和 北京 市 18 区 县 病例 时 间 序 列 数 据 为 例 , 综 合 运 用 空间 
格局 \ 时 间 序 列 ,时间 动 力学 模型 方法 ,调查 该 次 传染 病 暴发 的 时 空 关联 性 及 其 在 
防 控 措施 上 的 意义 。 


1. 数据 


每 日 SARS 病例 数据 来 自 官 方 日 报告 , 自 2003 年 4 月 20 日 至 2003 年 6 月 24 
日 传染 病 结束 为 止 。 自 4 月 27 日 起 ,北京 市 18 区 县 病例 日 数据 有 报告 并 制作 为 
GIS 格 式 。 对 4 A 20 日 前 后 的 最 终 调查 获得 了 SARS 感染 者 的 11108 例 密切 接 
触 者 的 居住 地 信息 并 制作 为 GIS 图 ,其 他 与 传染 病 有 关 的 数据 有 :北京 市 245 个 
社会 经 济 统计 单元 上 的 人 口 数 据 、 医 院 属性 及 位 置信 息 、 城 市 主要 交通 线 分 布 ,如 
图 20. 1 所 示 。 
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20.1 北京 传染 病 环 境 背 景 图 


2. 时 间 序 列 


世界 卫生 组 织 WHO 发 出 的 针对 某 个 地 区 的 旅游 警告 对 控制 疫情 的 扩散 和 
当地 旅游 经 济 活动 具有 巨大 的 影响 力 。 其 发 出 或 撤销 旅游 警告 的 依据 是 该 地 区 发 
病人 数 在 一 段 时间 内 持续 存在 或 持续 为 零 。 例 如 ,2003 年 WHO 对 香港 ,北京 ,多 
伦 多 等 地 区 先后 发 出 SARS 旅游 警告 。 

运用 具有 时 间 依 赖 的 传播 率 的 易 感 -暴露 -感染 -移出 (SEIR) 模 型 ,以 及 4 月 
19 日 至 6 月 21 日 的 感染 者 数据 ,估计 了 由 控制 措施 导致 的 SARS 传播 减少 ,获得 
了 此 次 传染 病 的 总 规模 。 与 现场 调查 或 先 验 概 率 分 布 假 设 相 对 照 , 如 果 数 学 模型 
接近 于 传染 病 机 制 ,模型 拟 合 可 以 用 小 样本 和 少 主观 获得 传染 病 参 数 。 


SEIR 模型 如 下 : 
BEF-LA 


dE(2) 
dt 


O — gE al) 


—ACOIG) —gEG) 


with A(t)=b+c/{1+exp[d* G—6)]) 


ака) _ (20.1) 
ds =al(t) 
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KE), IG) FM RCD 分 别 为 时 刻 1 暴露 ,感染 和 移出 人 数 ;4(1) 为 每 个 感染 人 
平均 接触 人 数 , 依 赖 于 时 间 , 因 为 控制 努力 随时 间 变 化 ;g 为 暴露 (潜在 ) 个 体 变 为 
被 感染 者 的 比率 ;a 为 感染 个 体 被 移出 的 比率 (恢复 或 隔离 );b、c、d e 为 待 拟 合 参 
数 基本 再 生 数 Ro 二 4(0)/a 二 (5 十 c)/a; 经 曲线 拟 合 我 们 获得 参数 估计 值 a = 
0. 252,5—0. 008,c=0. 588,d=0. 368,e=54 Alg=0. 200, 最 终 再 生 数 R.,==b/a = 
2. 37; 平 均 潜伏 期 为 1/g=5 days; 平 均 感 染 期 为 1/a=4 days. 

传染 病 参 数 是 传染 病 的 本 质 特征 ,是 干预 措施 的 基本 依据 。 图 20. 2 显示 了 易 
感 -暴露 -感染 -移出 模型 (SEIR) 对 感染 人 数 和 时 变 传 染 率 的 拟 合 情 况 , 显 示 出 传 
染 率 在 4 月 20 一 30 日 迅速 下 降 , 期 末 达 到 其 初始 值 的 1/6。 平均 潜伏 期 为 5 天 ， 
平均 感染 期 为 4 天 ,我 们 估计 的 北京 SARS 传播 基本 再 生 数 为 2. 37, 与 其 他 地 区 
的 估计 值 相似 (Anderson et al. ,2004;Lipsitch et al. .2003; Riley et al. ,2003), 6 
月 11 日 最 终 再 生 数 为 0. 1 ,指示 出 再 生 数 的 迅速 下 降 。 模 型 估计 的 传染 病 总 规模 
是 2522 ,与 北京 官方 和 世界 卫生 组 织 公布 值 一 致 。 


Solutions of Improved SEIR Model 





图 20.2 2003 年 北京 SARS 时 间 历 程 ,实测 ,模型 预测 及 参数 


将 11108 名 北京 2003 年 SARS 感染 者 的 密切 接触 者 作 图 ,清楚 地 揭示 了 疾 
病 的 风险 暴露 ,最 近邻 居 层 次 聚集 (Clark and Evans, 1954; Levine, 2002) 被 用 来 
识别 这 些 数据 的 空间 结构 。 图 12.3 小 粒度 的 一 阶 和 大 粒度 的 二 阶 高 风险 易 感 
人 和 群 , 背 景 层 是 统计 单元 人 口 密度 和 主要 城市 交通 路 线 。 大 多 数 一 阶 聚集 散布 
在 三 环 路 以 内 ,反映 了 风险 暴露 是 广泛 的 ,二 阶 聚 集 显 示 出 明显 的 环 路 格局 ， 向 
西 和 西北 扩展 ,该 方法 揭示 出 北京 东 端 的 一 阶 和 二 阶 聚 集 。 感 染 率 自 4 月 18 H 
以 后 的 10 天 之 内 迅速 下 降 。 
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3. 空间 格局 


1849 年 ,伦敦 暴发 霍乱 , 当 John Snow 将 霍乱 死亡 人 居住 地 点 标 在 地 图 上 , 怀 
疑 并 证 实 一 个 水 厂 应 对 此 次 霍乱 暴发 负责 。 这 一 事件 后 来 被 流行 病 学 和 空间 分 析 
分 别 列 为 各 自学 科 的 第 一 个 经 典 成 功 案 例 。 除 了 可 能 通过 空间 格局 发 现 致 病因 子 
外 , 某 一 时 刻 的 空间 格局 控制 了 事件 在 下 一 阶段 的 发 展 方向 和 规模 。 

最 近邻 居 层次 聚 类 被 用 于 确定 密切 接触 者 的 空间 格局 。 认 定 的 聚集 区 域 对 
于 控制 疾病 可 能 是 关键 的 ,可 能 提供 目标 干预 的 重要 方向 (Jacky et al. ,2005)。 
一 阶 聚集 指示 了 高 风险 易 感人 群 的 空间 聚集 ,二 阶 聚 集 指示 了 初始 聚集 的 高 集 
中 区 域 。 

最 近邻 居 层 次 聚集 算法 (参见 本 书 第 6. 2 节 ) 如 下 : 

从 密切 接触 者 到 其 最 近 距 离 的 平均 值 及 平均 值 的 标准 差 为 


u(d)-— 1 /&, s == тв 0. 26136 yA (20. 2) 
式 中 ,A 为 区 域 面积 ;N 为 该 区 域 密切 接触 者 数目 。 eo 
L=p(d)—1. 645X s(d) (20. 3) 


在 这 个 距离 内 的 邻近 点 被 认定 为 邻居 ,并 进行 聚集 。 计 算 每 个 一 阶 聚 集中 心 点 之 
间 的 距离 并 重复 以 上 判断 得 到 密切 接触 者 的 空间 分 布 具 有 两 个 空间 尺度 上 的 显著 
聚集 性 。 一 阶 聚 集 呈 现 空间 随机 分 布 , 二 阶 聚 集 呈 现 与 北京 市 环线 高 度 视觉 相关 ， 
如 第 8 章 图 8. 33 所 示 。 


4. 空间 聚集 的 时 间 变 化 


接 下 来 一 个 重要 的 问题 是 SARS 新 生病 例 空间 聚集 随时 间 的 变化 。SARS 新 
病例 按 其 居住 区 归 组 ,图 20. 3 显示 了 空间 聚集 Moran’ ffi (Moran, 1950) Bf [8] 40 (E, 
的 小 波 分 解 , 得 到 低频 部 分 (a4) 和 高 频 部 分 (dl,d2,d3,d4)。 系 数 的 近似 部 分 (a4) 
指示 局 域 传播 主导 了 总 体 传 播 过 程 直 至 4 月底, 并且 在 5 月 8 日 基本 被 控制 住 。5 
月 9 日 之 后 ,近似 部 分 (a4) 和 细节 部 分 (d4) 均 指示 出 空间 至 集 迅 速 消失 。 


5. 传染 扩散 因子 


我 们 用 BW 连接 -计数 检验 (Haggett et al. ,1976) ,该 值 度量 区 域 网 络 连接 与 
传染 病 格局 一 致 性 程度 ,判断 环境 因子 与 SARS 的 关联 性 ,推断 SARS 空间 传播 
的 影响 因子 。 北 京 区 际 传染 病 传播 7 种 可 能 的 连接 网 络 如 下 (图 20. 4): 

NI. 当地 传播 :两 个 区 域 连接 ,如 果 它 们 共享 地 理 边 界 ; 

N2. 最 近 区 域 :每 个 区 域 与 其 中 心 距 离 最 近 的 区 域 相连 ; 

N3. 人 口 规模 :区 域 按 人 口 规模 排序 ,区 域 按 此 顺序 连接 
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N4. 人 口 密度 : 同 N3, 但 按 人 口 密度 排序 ; 

М5. 医生 数目 : 同 N3, 但 按 区 域 医生 数目 排序 ; 

№6. 医院 数目 : 同 N3, 但 按 区 域 医院 数目 排序 ; 

NT. 城 - 乡 :8 个 区 域 被 认定 为 城区 ,其 余 为 乡 区 。 

对 于 每 个 网 络 ,计算 每 一 天 的 BW 连接 -计数 统计 , 画 出 该 统计 随时 间 的 变化 
曲线 。 
基本 发 现 是 ,邻接 区 域 间 的 传播 非常 明显 ,直至 4 月底 。5 月 13 一 19 日 ,有 一 
次 明显 的 城乡 传播 过 程 ,反映 出 在 这 一 时 段 通州 区 的 SARS 暴发 。 其 余 因 子 显示 
:与 SARS 传 波 间 葡 性 地 关联 ,提示 医生 数目 和 人 口 密度 与 感染 扩散 之 间 的 关系 。 
总 之 ,空间 邻接 是 流行 病 扩 散 的 主要 因子 ,健康 护理 工作 者 是 空间 扩散 间歇 性 的 驱 
动力 。 空 间 邻 接 性 控制 了 传播 的 主要 时 期 ,而 医生 、 医 院 等 因素 间 砍 性 地 对 空间 传 
播 起 作用 。 


6， 系 统 连接 


在 以 上 分 别 充分 考察 事件 的 空间 .时 间 特 征 和 因子 之 后 ,可 以 开展 时 空 耦 合 分 
析 。 空 间 格 局 与 时 间 序 列 存在 本 质 上 的 联系 ,是 一 个 过 程 在 空间 和 时 间 两 个 维度 
上 的 分 别 表现 : 某 个 时 刻 的 感染 人 数 是 该 时 刻 每 个 空间 统计 单元 内 感染 人 数 之 和 ; 
事件 的 不 同 发 展 阶段 可 能 对 应 不 同 的 空间 格局 。 

图 20.5 显示 了 Meta 建 模 思想 :最 底层 是 观测 获得 的 各 种 来 源 数 据 集 ;运用 
各 种 分 析 工 具 ( 如 Morans’ 1,SEIR, BW.NHC 等 ) 可 以 得 到 研究 对 象 的 各 种 统计 
特征 ,如 空间 分 布 . 时 间 过 程 驱 动力 和 影响 因子 等 ,形成 图 20. 5 中 间 层 ;利用 各 种 
统计 可 能 存在 的 共同 项 ,如 同一 时 间 、 同 一 地 点 或 同一 因子 等 ,将 各 统计 指标 按 共 
同 项 进一步 两 两 连接 起 来 ,逐步 形成 相互 作用 的 网 络 。 据 此 因子 网 络 , 运 用 符号 动 
力学 实现 系统 关系 联动 推理 (图 20. 5 顶层 ) 。 

时 间 变 量 (感染 人 数 、 季 节 和 天 气 ) 空间 变量 (风险 暴露 ,监测 网 络 .旅行 警 告 、 
隔离 等 ) 和 因果 要 素 ( 免 疫 、 人 口 密度 等 ) 的 对 应 性 可 以 使 我 们 从 一 个 更 加 可 操作 的 
域 上 对 一 个 不 易 察觉 的 或 不 易 操纵 的 域 上 的 现象 进行 预报 ,推理 ,控制 和 因子 识 
别 。 例 如 ,一 个 (空间 ) 区 域 上 的 自由 迁徙 或 隔离 必 将 导致 (时 间 ) 感 染 人 数 的 增加 
或 降低 :季节 温度 的 波动 (时 间 ) 将 影响 人 们 的 空间 运动 密度 和 病毒 的 空间 异 质 性 ， 
因此 改变 风险 暴露 格局 (空间 )。 

图 20. 5 将 以 上 独立 统计 获得 的 空间 格局 .时间 过 程 和 驱动 力 之 间 的 对 应 关系 
就 浮现 了 出 来 。 空 间 格局 (图 8. 33) 揭 示 了 两 个 尺度 的 空间 聚集 ,图 20.3 显示 大 
的 空间 聚集 (a4) 在 传染 高 峰 期 直至 4 月 30 日 缓慢 发 展 , 其 后 消散 开 来 ,这 主要 是 
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SARS 在 北京 的 传播 过 程 
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图 20.4 传播 扩散 因子 BW 统计 识别 (Meng and Wang,2005) 
图 b 至 e 纵 坐标 是 BW 统计 的 z 值 ,超过 1. 96 以 上 为 统计 显著 , 横 坐 标 是 2003 年 4 月 27 日 至 5 月 25 日 各 天 
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图 20.5 从 独立 统计 到 系统 分 析 


由 北京 城市 交通 环 路 的 空间 邻近 性 控制 的 ,这 个 空间 邻接 性 因子 在 BW 统计 中 可 
以 查 对 出 其 作用 时 段 (图 20. 4)。 在 5 月 1~10 日 的 下 降 期 大 的 空间 聚集 引领 着 
趋势 ,此 时 驱动 力 较 弱 ,而 小 的 空间 聚集 (图 20. 3 中 的 d4) 仍 然 在 构建 之 中 ,被 这 
一 时 段 的 人 口 密度 和 医生 数量 两 个 因子 所 驱动 , 即 大 的 空间 聚集 在 高 峰 期 主导 ,而 
小 聚集 在 下 降 期 活跃 。 在 5 A 10 日 至 6 月 中 旬 的 传染 病 最 后 阶段 ,北京 东 端 通州 
经 历 了 一 次 SARS 暴发 ,与 城 - 乡 关系 因子 在 这 一 时 段 的 显著 表现 相 一 致 . 

系统 分 析 帮 助 我 们 做 出 控制 决策 。 大 育 集 与 城市 环 路 及 轻轨 的 强烈 视觉 关联 
提示 我 们 ,集中 于 北京 交通 路 线 的 干预 措施 可 能 对 于 SARS 或 具有 类 似 流行 病 特 
征 的 疾病 控制 是 有 效 的 。SARS 空间 扩散 的 时 间 变 化 通知 我 们 在 传染 病 暴发 的 不 
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同 阶 段 哪 种 类 型 的 干预 可 能 是 有 效 的 。 当 流行 病 通 过 传染 扩散 而 增长 时 ,隔离 病 
例 和 减少 区 际 运动 是 有 效 的 干预 措施 。 而 当 呈 现 聚 集 状 时 ,资源 应 当 直 指 遏制 高 
感染 地 点 的 传播 。 我 们 的 结果 提示 在 局 域 水 平 上 改进 控制 措施 在 4 月 底 以 前 是 相 
当 有 效 的 。 局 域 干预 包括 感染 者 家 庭 的 隔离 。 这 些 措施 一 旦 非常 有 效 , 传 播 就 将 
迅速 减 小 并 且 变 为 远 距 离 接 触 为 主导 。 

Meta Modeling 为 基于 观测 数据 建立 系统 动力 学 模型 提供 了 思路 , 亦 为 集成 
创新 研究 提供 了 构架 。 

以 北京 2003 年 SARS 数据 为 案例 ,用 Meta Modeling 得 到 了 风险 暴露 的 空间 
格局 ,动态 演变 ,驱动 力 之 间 的 相互 联动 关系 。 据 此 ,当前 的 空间 格局 被 用 来 预报 
流行 病 的 时 间 演 化 趋势 ,观测 到 的 时 间 过 程 曲 线 被 用 来 估计 传染 病 风险 的 空间 暴 
露 , 空 间 暴 露 被 用 来 推断 传染 病 传播 的 驱动 力 。 这 一 理论 显著 增强 了 空间 流行 病 
的 主流 分 析 方 法 ,改进 了 对 传染 病 中 未 知 关系 的 理解 。 数 据 结合 空间 过 程 的 系统 
建 模 思 想 亦 被 成 功 地 运用 于 灾害 情景 模拟 分 析 。 


BAR ”空间 统计 学 软件 包 


当今 流行 的 统计 工具 软件 包 SPSS, MatLab 等 大 大 地 促进 了 数据 分 析 深 加 工 
及 其 在 各 领域 的 应 用 。 其 统计 部 分 主要 处 理 独立 样本 数据 。 

专门 的 空间 信息 分 析 理论 ,方法 和 技术 自 20 世纪 60 年 代 未 开始 得 到 认识 并 
研究 。 空 间 信息 分 析 理 论 和 技术 较为 复杂 ,对 于 一 般 科 研 人 员 而 言 掌握 难度 大 、 耗 
费 精 力 多 。 为 此 ,世界 各 地 的 学 者 和 研究 机 构 及 一 些 软 件 开 发 商 已 经 研制 了 众多 
的 空间 分 析 软 件 包 , 这 些 软 件 包 有 的 关注 于 某 一 类 型 的 空间 数据 的 分 析 , 对 空间 数 
据 分 析 在 特定 领域 (如 犯罪 分 析 、 公 共 卫 生 研究 ) 的 应 用 起 到 了 极 大 的 推动 作用 ;有 
些 则 试图 发 展 尽 可 能 全 面 的 空间 分 析 功 能 ,对 空间 分 析 理 论 和 方法 的 研究 和 实践 
具有 重要 的 意义 。 

空间 分 析 理 论 来 源 于 地 理学 和 地 质 学 。 由 于 地 理学 和 地 质 学 研究 对 象 不 同 ， 
所 涉及 的 数据 特点 和 分 析 方 法 不 同 ,造成 两 大 流派 在 软件 功能 .结构 .风格 上 的 不 
同 。 源 于 地 质 学 的 空间 分 析 软 件 包 一 般 均 以 地 统计 数据 为 主要 研究 对 象 ,其 空间 
分 析 方 法 以 Kriging 为 代表 ,相关 的 软件 也 比较 成 熟 , 如 GISlab 等 ,在 主流 GIS Ж 
fF ArcGIS 中 也 包含 了 地 统计 分 析 模 块 。 地 理学 者 所 关注 的 空间 现象 主要 包括 点 
数据 和 多 边 形 数据 。 由 于 多 边 形 数据 和 点 数据 可 以 相互 转换 (如 由 点 生成 泰 森 多 
边 形 ,由 多 边 形 生成 中 心 点 ) ,因此 ,此 两 者 的 很 多 分 析 方法 有 相似 的 地 方 。 积 极 推 
动 空间 分 析 理 论 和 方法 研究 的 欧美 地 理学 家 大 多 经 历 了 20 世纪 60 年 代 地 理学 计 
量 革 命 , 他 们 研发 的 空间 信息 分 析 软 件 包 多 以 空间 相关 性 和 空间 异 质 性 为 其 理论 
核心 。 而 随 着 计算 机 技术 、 对 地 观测 技术 的 快速 发 展 以 及 科学 研究 中 人 文 和 自然 
综合 研究 趋势 的 日 益 加 强 ,空间 分 析 的 需求 愈 来 愈 多 ,相关 的 软件 包 的 开发 和 应 
用 ,对 促进 地 理 信息 科学 的 发 展 具 有 非常 大 的 推动 作用 。 

本 章 简 介 本 书 空间 数据 统计 各 章 ( 第 3 一 9 章 ) 用 到 的 软件 和 下 载 网 址 ,包括 
GeoDa , CrimeStat, WinBUGS, SatScan, SSSI 等 。 各 软件 的 具体 使 用 步骤 已 在 各 
章 中 结合 具体 算 例 详 述 。 


| 21.1 GeoDa: 空间 统计 分 析 软 件 


GeoDa( Fl 21. 1) 是 一 个 专用 于 格 数据 探索 性 空间 数据 分 析 (ESDA) 的 模型 工 
具 集 成 软件 ,由 美国 科学 院 院士 的 Luc Anselin 教授 开发 。 它 用 一 个 友好 的 图 形 
界面 来 描述 如 自 相关 性 统计 ,空间 回归 等 空间 数据 分 析 。GeoDa 软件 基于 动态 连 
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接 窗 口技 术 , 利 用 多 张 地 图 和 统计 图 表 来 实现 交互 操作 ， 





图 21.1 GeoDa 软件 版 权 界面 


GeoDa 主要 支持 的 数据 格式 是 ArcView 的 shape 文件 。 当 将 文件 导入 软件 
后 ,用 户 可 以 利用 菜单 里 9 个 菜单 项 (图 21. 2) 进 行 各 种 分 析 。GeoDa 软件 菜单 栏 
的 每 项 菜单 都 具有 特定 功能 ,其 中 最 重要 的 菜单 项 在 工具 条 内 都 有 相应 的 图 标 与 
其 对 应 。 在 GeoDa 软件 里 ,这 些 工 具 条 可 以 随意 被 拖 动 并 放置 在 界面 任何 位 置 。 
菜单 栏 里 的 File 菜单 是 用 来 打开 或 关闭 一 个 工程 文件 及 退出 系统 的 。 当 工程 中 
没有 激活 窗口 时 , File 菜单 仅 包含 两 个 选项 :用 来 打开 GeoDa 工程 设置 窗口 的 
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"Open Project” MiB Н RRA“ Exit”. Im Edit 菜单 则 具有 3 组 功能 项 :第 一 项 操 
作 地 图 ,第 二 项 选择 用 来 制图 和 统计 分 析 的 变量 ,最 后 一 项 使 用 Windows 前 贴 板 。 
View 菜单 包含 两 个 选项 来 选择 在 工程 界面 和 工具 条 里 显示 哪些 工具 项 。 这些 工 
具 项 没有 相应 按钮 与 之 对 应 。Tools 菜单 有 3 个 子 按钮 来 建立 和 分 析 空 间 权 重 ， 
转换 和 创建 点 和 和 多边 形 文件 ,以 及 输出 数据 。Table 菜单 可 以 对 图 层 属性 表 进 行 
МЕ; Мар 菜单 则 用 于 区 域 制图 ,这 些 图 既 包 含 分 数 图 、 百 分 位 数 图 、 箱 式 图 .标准 
差 图 等 普通 标准 图 ,又 涵盖 了 比率 平滑 图 等 专业 图 。Explore 菜单 主要 是 用 来 展 
示 探 索性 数据 分 析 结 果 统计 图 (直方 图 、 散 点 图 、 排 序 图 ,三 维 散 点 图 等 )。Space 
菜单 用 来 进行 度量 数据 空间 自 相 关 性 等 探索 性 空间 数据 分 析 , 包 括 Moran 散 点 图 
及 Moran’ I 推断 、 二 元 散 点 图 及 Moran” s I 推断 ,发 生 率 的 Moran 散 点 图 [通过 
检 贝 叶 斯 (EB) 标 准 化 ]、 局 域 Moran’ s I 显著 性 地 图 、 局 域 Moran’ s 聚集 性 地 图 、 
二 元 局 域 Moran’ s I 发 生 率 的 局 域 Moran’ s I[ 通 过 检 贝 叶 斯 (EB) 标 准 化 ]. 
Regress 菜 单 可 以 用 来 进行 经 典 回 归 和 空间 回归 等 操作 。 


21.2 CrimeStat: 空 间 聚 类 软件 


CrimeStat 软件 (图 21. 3) 由 美国 Ned Levine 博士 主持 开发 ,由 美国 National 
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Institute of Justice 等 机 构 资 助 。 从 该 软件 的 名 称 就 可 以 发 现 ,开发 其 软件 的 最 初 
目的 是 对 犯罪 事件 进行 空间 统计 分 析 , 但 目前 该 软件 在 流行 病 学 等 众多 领域 也 都 
获得 广泛 应 用 。 

CrimeStat 软件 包括 5 个 部 分 (图 21. 4) :数据 设置 .空间 描述 .空间 模型 .犯罪 
旅行 需求 和 选项 设置 。CrimeStat 软件 输入 项 为 事件 发 生 的 地 点 (如 案 发 地 点 )， 
在 数据 设置 中 可 以 指定 主要 文件 ,次 要 文件 和 参照 文件 等 ,支持 的 文件 格式 包括 
dbf 数据 库 文 件 . ArcView 的 shape 文件 或 者 ASCII 文件 ,并 且 可 以 指定 投影 类 
型 .距离 单位 等 参数 。 在 CrimeStat 中 ,空间 分 析 被 细 分 为 以 下 7 个 主要 类 别 : 
四 空间 描述 ,用 于 描述 点 (犯罪 事件 ) 的 空间 分 布 特征 ,主要 的 指标 包括 平均 中 心 、 
dicc ue BS Г» ,标准 偏 移 椭圆 ,Moran’s 1, Moran 相关 图 .平均 方向 等 ;加 距离 统计 
描述 ,用 于 识别 点 (犯罪 事件 ) 空 间 分 布 是 否 具有 聚集 性 ,如 最 邻近 分 析 、 线 性 最 邻 
近 分 析 、Ripley 的 K 函数 和 距离 矩阵 演算 等 ;@@ 热 点 分 析 , 用 于 寻找 点 (犯罪 事件 ) 
集中 分 布 区 域 ,包括 层次 邻近 分 析 、 风 险 修正 的 层次 邻近 分 析 、STAC、K 均值 和 局 
hii Moran’ s I 统计 等 统计 分 析 形 式 ;@ 单 变量 核 密度 估计 ,通常 生成 密度 表面 或 事 
件 发 生 频 率 的 等 值 线 ;@ 双 变量 核 密度 估计 ,通常 为 事件 发 生 频 率 与 基准 水 平 的 比 
较 ;@@ 时 空 分 析 , 分 析 点 (犯罪 事件 ) 时 空 分 布 规律 ,包括 计算 Knox 系数 .Mantel 
系数 .时 空 移动 平均 数 和 关联 旅程 分 析 等 ;名 犯罪 旅程 分 析 (Journey-to-crime 
analysis) ,包括 定 标 , 估 计 和 绘制 犯罪 轨迹 图 。 犯 罪 旅程 分 析 包 括 5 个 不 同 数学 函 
数 或 一 个 经 验 的 函数 。 在 这 7 种 分 析 中 ,用 户 可 以 得 到 不 同 的 空间 统计 指标 ,而 且 
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可 以 将 图 形 化 的 结果 存 为 ArcView/ArcInfo, MapInfo, Atlas +» GIS, Surfer for 
Windows 等 软件 支持 的 格式 。 犯 罪 旅行 需求 是 CrimeStat 软件 独 有 的 专业 特色 功 
能 ,其 是 旅行 需求 理论 在 犯罪 分 析 中 的 应 用 。 这 个 模型 常 应 用 于 区 域 层面 ,包括 以 
下 模块 :旅行 发 生 器 ,包含 独立 的 旅行 发 生 和 旅行 吸引 力 模 型 ;@ 旅 行 分 布 , 用 于 
计算 观测 的 旅行 分 布 、 模 拟 旅行 分 布 、. 比 较 观 测 的 与 预报 的 旅行 距离 的 分 布 ; 名模 
式 划 分 ,根据 不 同 的 起 源 - 目 的 地 组 合 ,划分 五 种 不 同 旅行 模式 ;四 网 络 分 配 ,估计 
可 能 的 旅行 线路 ,包括 各 网 络 段 的 总 容量 ,这 个 网 络 可 以 使 用 除 距 离 之 外 的 旅行 时 
间 ,旅行 速度 或 旅行 花费 来 模拟 。 

CrimeStat 软件 包 可 以 从 http://www. icpsr. umich. edu/CRIMESTAT 免费 
下 载 ,同时 这 个 网 站 也 提供 样本 数据 和 使 用 指南 。 除 此 以 外 ,在 联机 帮助 系统 中 ， 
还 提供 了 相关 统计 指标 的 详细 说 明 。 


21.3 WinBUGS 和 GeoBUGS: 层 次 贝 叶 斯 建 模 软件 
WinBUGS( Bayesian inference using gibbs sampling) 是 英国 剑桥 公共 卫生 研 
究 所 的 MRC Biostatistics Unit 推出 的 用 马尔 可 夫 链 -蒙特 卡 罗 (Markov Chain- 


Monte Carlo, MCMC) 方 法 进行 贝 叶 斯 推断 的 专用 软件 包 ( 图 21.5)。 它 可 方便 地 
对 许多 常用 或 复杂 模型 (如 分 层 模型 ,交叉 设计 模型 .空间 和 时 间作 为 随机 效应 的 
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atep(SRI 1) 
CPP жер((5Я[1)) . 
| 


# CAR prior distribution for random effects 
#1 N| ~ car normal(adi], weight]. numi] prec) 
for(k in 1: sumNumNeigh| 


weights{k] <- 1 
} 
# Other priors: 
~ Map 
protv tp a 0.0005) = # prior on precision 


w<- 1jprecy 
war <- sqrt(] / prec v) # standard deviation 


sigma e< t/sgrt(prec е) 
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一 般 线性 混合 模型 , 潜 变 量 模 型 .脆弱 模型 、 因 变量 的 测量 误差 HEE RENE, 
限制 性 估计 ,缺失 值 问题 ) 和 分 布 进行 Gibbs 抽样 ,还 可 以 用 简单 的 有 向 图 模型 
(directed graphical model) 进 行 直观 的 描述 ,并 给 出 参数 的 Gibbs 抽样 动态 图 ,用 
平滑 方法 得 到 后 验 分 布 的 核 密度 估计 图 ,抽样 值 的 自 相关 图 及 均 数 和 置信 区 间 的 
变化 图 等 ,使 抽样 结果 更 直观 、 可 靠 。Gibbs 抽样 收敛 后 ,可 很 方便 地 得 到 参数 后 
验 分 布 的 均 数 .标准 差 .95% 园 信 区 间 和 中 位 数 等 信息 。 

WinBUGS 软件 中 ,构建 模型 是 进行 分 析 的 最 关键 步骤 。WinBUGS 软件 采用 
一 种 混合 文档 作为 其 文件 格式 。 在 一 个 混合 文档 中 ,可 以 包括 文字 、 表 格 \ 公 式 、 图 
表 、 图 形 等 众多 信息 。 模 型 同样 是 混合 文档 的 一 个 部 分 ,通过 model 这 一 关键 字 来 
区 分 。model 为 模型 指示 语 ,由 {} 括 起 来 的 语句 为 模型 的 具体 内 容 , for 语句 表示 
循环 变量 及 循环 次 数 。 每 个 循环 语句 同样 要 用 { } 括 起 来 才 完 整 。 “一 ”表示 随机 变 
量 的 分 布 ,左边 为 变量 ,右边 为 分 布 ,dnorm 表示 服从 正 态 分 布 ,括号 内 为 该 分 布 的 
两 个 参数 。 “二 一 "表示 变量 间 的 逻辑 函数 关系 ,其 左右 符号 含义 同 “~”。 逻 辑 关 
系 可 用 逻辑 函数 如 “sqrt”、“sum” 等 或 一 般 运 算 符号 表示 。 

另外 可 以 用 Doodle 功能 来 进行 有 向 图 建 模 (图 21.6)。 在 有 向 图 模型 结构 
中 ,每 个 椭圆 形 饼 状 图 表示 一 个 结 点 ，; 有 两 种 类 型 :随机 结 点 (stochastic node) ALB 
辑 结 点 (logical node) 。 结 点 间 以 实 箭头 或 空 箭头 相连 , 实 箭头 表示 结 点 间 的 随机 
关系 , 空 箭头 表示 结 点 间 的 逻辑 关系 ,箭头 指向 的 结 点 为 父 结 点 ,箭头 出 发 的 结 点 
为 子 结 点 。 图 中 方 框 形 平板 表示 循环 结构 ,每 个 平板 表示 一 个 循环 ,并 且 在 其 左下 
角 用 “for” 语 句 表明 了 循环 变量 及 循环 次 数 , 而 板 外 的 表示 非 循 环 结 点 ， 各 板 公共 
部 分 表示 多 重 循环 。 
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建立 模型 还 需要 对 数据 进行 定义 和 输入 。 在 WinBUGS 中 ,一 般 采 用 SPLUS 
格式 定义 数据 ,各 类 观测 值 变量 被 定义 成 数组 (如 有 和 缺失 数据 ,用 NA 表示 )。 构 建 
好 一 个 模型 后 ,需要 在 WinBUGS 软件 对 模型 进行 检验 ,这 一 过 程 在 WinBUGS 软 
fth" specification", specification 的 第 一 步 为 check model, 即 检查 其 语法 是 
否 正 确 , 模 型 中 各 个 变量 是 否 有 赋值 方式 。 第 二 步 是 输入 数据 。WinBUGS 软件 
的 数据 可 以 和 模型 存放 于 同一 混合 文档 中 ,其 关键 字 为 list。 通 过 load data 实现 
数据 的 输入 和 检查 。 第 三 步 是 要 指定 链 的 数目 , 即 MCMC 采样 器 的 数目 ,然后 点 
йт Compile 完成 模型 的 检验 。 如 果 顺 利通 过 ,可 以 继续 完成 后 面 的 计算 ,否则 需 检 
查 其 提示 的 错误 信息 。 编 译 通过 之 后 ,还 要 指定 模型 中 一 些 MCMC 参数 的 初始 
值 或 由 系统 自动 产生 。 接 下 来 就 可 以 进行 模型 的 运算 ,可 以 通过 多 种 图 形 观 察 其 
运算 结果 。 

GeoBUGS 则 是 WinBUGS 中 一 个 特别 的 模块 ,可 以 产生 和 管理 空间 邻接 拢 
阵 ( 图 21. 7) 空间 条 件 自 回归 (conditional autoregressive models,CAR) 模 型 的 计 
算 ,并 为 计算 的 结果 提供 图 形 输出 功能 。 
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目前 关于 WinBUGS 最 权威 ,资源 最 丰富 的 是 “The BUGS Project" Rd Jf. 


http; //www. mre-bsu. cam. ac. uk/bugs/winbugs/contents. shtml, 


21.4 SatScan: 43 [a] ddl 4k fF 


SatScan 软件 是 一 款 用 空间 、 时 间或 时 空 扫描 统计 量 分 析 空 间 、 时 间 和 时 空 数 
据 的 免费 软件 ,其 由 哈佛 大 学 公共 医学 院 Martin Kulldorff 博士 开发 。 该 软件 主 
要 应 用 于 以 下 几 个 方面 :中 实施 疾病 地 理 监 测 , 探 查 疾病 在 空间 、 时 空 分 布 上 的 聚 
类 ,并 检验 它们 是 否 具有 统计 显著 性 ;@@ 检 验 某 种 疾病 在 时 间 、 空 间 、 时 空 上 是 否 服 
从 随机 分 布 ;@@ 计 算 某 种 疾病 聚 类 警报 的 统计 显著 性 ;@ 为 疾病 暴发 早期 探测 重复 
进行 定期 疾病 监测 等 。 该 软件 还 适用 于 解决 生态 学 ,经 济 学 .历史 学 ,动物 学 等 其 
他 学 科 里 类 似 问 题 ， 

在 利用 SatScan 软件 进行 空间 分 析 时 ,通常 需要 根据 病例 数据 的 空间 分 布 概 
率 模 型 选择 输入 以 下 格式 的 数据 (图 21.8): 病例 数据 (. cas)、 对 照 人 群 数据 
C ctl) 、 人 口 数据 (. pop) .坐标 数据 (. geo) 、 格 网 数据 (. geo)。 这 些 文件 都 可 以 用 
记事 本 打开 并 编辑 。 除 了 输入 数据 以 外 , 还 需要 设置 研究 时 段 .时 间 精 度 、 坐 标 类 
型 和 协 变量 等 参数 。 同 时 SatScan 软件 分 析 的 结果 涵盖 了 探寻 出 来 的 热点 区 域 位 
置 , 相 对 风险 ,病例 情况 等 信息 ,可 以 以 ASCII 或 者 dBASE 形式 输出 。 
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(图 21. 9) 前瞻 性 分 析 的 结果 具有 一 定 预测 性 ,只 涉及 时 间 和 时 空 分 析 , 如 时 空 重 
排 扫描 统计 量 ; 回顾 性 分 析 是 对 已 经 发 生 的 疾病 数据 进行 研究 , 赛 括 了 时 间 ,空间 
和 时 空 分 析 方法 。 如 果 按 照 探 测 热点 的 特点 来 分 ,SatScan 软件 数据 分 析 又 可 以 
被 分 为 探寻 具有 高 发 病 率 、 低 发 病 率 或 者 异 于 正常 发 病 率 的 区 域 的 分 析 。SatScan 
软件 根据 空间 .时 间或 时 空 扫描 统计 基 原 理 , 通 过 计算 聚 类 搜索 区 域内 外 事件 发 生 
率 似 然 比 来 寻找 疾病 发 生 热 点 。 在 进行 空间 分 析 时 , 它 一 共有 5 个 似 然 比 计算 模 
型 。 如 果 根 据 某 一 区 域内 潜在 受 疾病 威胁 的 人 群情 况 , 得 到 该 区 域 的 病例 数 在 空 
间 上 服从 泊 松 分 布 ,那么 SatScan 软件 分 析 必 须 选择 基于 泊 松 分 布 的 似 然 比 计算 
模型 。 如 果 仅 有 类 似 于 病例 数据 和 对 照 数据 此 类 的 0/1 事件 数据 的 话 , SatScan 
分 析 要 选择 贝 努 利 模 型 。 序 数 模型 适用 于 排序 类 别 数 据 , 指 数 模型 则 适用 于 存活 
时 间 数 据 。 正 态 模型 很 少 用 到 ,一 般 针 对 其 他 类 型 的 连续 型 数据 。SatScan 软件 
能 够 进行 多 个 数据 集 同 步 并 行 分 析 来 寻找 发 生 其 中 的 聚 类 。 该 软件 还 可 以 根据 背 
景 人 群 的 空间 异 质 性 ,病例 发 生 的 时 间 趋 势 或 用 户 提供 的 协 变量 等 信息 相应 地 进 
行 模型 计算 数据 调整 ,得 到 有 用 的 结果 。 
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Time Aggregation 
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图 21.9  SatScan 软件 分 析 功 能 模块 
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SatScan 软件 可 以 从 http://www. satscan. org 上 下 载 。 同 时 该 网 站 还 提供 
了 样本 数据 和 相关 的 文献 。 


21.5 SSSI: 空 间 抽样 与 统计 推断 软件 


SSSI 软件 (图 21. 10) 是 由 中 国 科 学 院 地 理科 学 与 资源 研究 所 王 劲 峰 主 持 开发 
的 ,是 一 种 专业 的 空间 抽样 和 统计 推断 软件 。 该 软件 是 基于 空间 抽样 理论 和 超 图 
SuperMapViewer 类 库 开发 的 一 个 桌面 软件 ,主要 面向 进行 抽样 调查 、 统 计 推断 和 
空间 数据 分 析 的 用 户 。 
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图 21.10 SSSI 软件 界面 
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SSSI 软件 可 运用 于 4 个 方面 ， 
CD 对 计划 中 的 监测 网 络 ( 农 业 、 人 口 .经 济 、 环 境 ) 一 一 计算 最 佳 监测 或 抽样 
点 分 布 和 密度 ; 
(2) 对 已 形成 的 监测 网 络 (气象 站 ) 一 一 推荐 最 佳 估 值 方法 和 网 络 改进 建议 ; 
(3) 对 已 形成 的 估计 (区 域 污染 指数 .温室 气体 排放 ) ,评价 其 精度 ,可靠 性 ( 样 
点 分 布 .密度 、 估 值 方法 ); 
(4) 基于 Sandwich 空间 抽样 理论 对 各 报告 单元 进行 高 效 抽样 和 并 行 报告 。 
与 现 有 的 经 典 统计 学 软件 和 空间 统计 学 软件 比较 ,SSSI 不 仅 考虑 了 样本 值 
(如 经 典 统计 学 ) 和 样本 空间 相对 位 置 ( 如 空间 统计 学 ) ,还 考虑 了 样本 的 空间 绝对 
位 置 , 见 表 21.1. 
表 21.1 5551 的 特点 
经 典 统计 学 (如 SPSS) ”空间 统计 学 (如 GeoDA) 空间 抽样 统计 (SSSD 
属性 值 ` * х 
空间 相对 位 置 x * 
空间 绝对 位 置 * 
* 表示 软件 考虑 的 数据 属性 。 


经 典 统计 学 假设 样本 独立 ,但 空间 数据 普遍 存在 空间 相关 性 ,因此 产生 了 空间 
统计 学 ,这 时 样本 之 间 的 相对 位 置 是 重要 的 。 实 际 上 ,空间 数据 还 普遍 存在 空间 异 
质 性 。 例 如 ,两 个 样本 单元 放置 的 不 同 的 (绝对 ) 空 间 位 置 ,即使 它们 之 间 的 距离 保 
持 不 变 , 其 样本 均值 也 是 不 同 的 。 

SSSI 软件 将 抽样 过 程 分 为 三 个 阶段 :第 一 阶段 是 计算 样本 量 或 计算 估 值 的 先 
验 精度 ,第 二 阶段 是 布设 样本 并 调查 样本 值 ,第 三 阶段 是 统计 推断 和 结果 报告 。 在 
现 有 抽样 理论 中 ,计算 样本 量 的 方法 , 布 样 方法 和 通过 样本 值 进行 统计 推断 都 是 采 
用 相同 的 模型 ,SSSI 软件 则 基于 空间 抽样 优化 决策 三 一 理论 ( 王 劲 峰 等 ,2009) ,在 
计算 样本 量 、 布 样 和 统计 推断 的 时 候 可 以 采用 不 同 的 模型 ,从 而 可 获得 更 高 的 抽样 
效率 。 此 外 ,SSSI 软件 在 当前 主要 经 典 抽样 方法 (Cochran,1977) 的 基础 上 又 新 增 
了 两 种 空间 抽样 模型 和 “三 明治 ”抽样 模型 ,是 本 软件 的 一 大 特色 。 这 三 种 抽样 模 
型 均 考虑 了 样本 间 的 相关 性 ,因此 具有 更 高 的 效率 ;“ 三 明治 ”抽样 模型 在 抽样 对 象 
空间 分 层 的 基础 上 增加 了 报告 单元 层 , 报 告 单元 就 是 最 后 汇报 时 ,用 户 希 望 使 用 的 
报告 单位 ,如 县 界 、 省 界 ,流域 ,网 格 等 ， 

抽样 系统 包含 如 下 具体 功能 模块 (图 21. 11) :四 数据 输入 和 输出 :包括 读 写 工 
程 文件 . 导 人 抽样 底 图 或 抽样 范围 . 导 人 分 层 文件 .保存 工程 文件 及 创建 和 保存 样 
本 点 文件 ;加 抽样 区 域 和 参数 设置 :选择 抽样 区 域 ,抽样 模型 (简单 随机 抽样 、 系 统 
抽样 ,分 层 抽样 ,空间 随机 抽样 ,空间 分 层 抽样 ,三 明治 空间 抽样 ) 和 输入 计算 样本 
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量 函 数 所 需 参 数 ;@ 空 间 分 层 :分 为 专家 经 验 分 层 和 K-means 分 层 两 种 分 层 形式 ; 
@ 可 视 化 和 查询 :包括 样本 点 在 空间 布局 显示 、 样 本 点 属性 表 显 示 和 属性 查询 以 及 
空间 布局 图 和 属性 表 的 动态 联结 显示 ;:@@ 空 间 分 析 与 统计 : 涵盖 选择 统计 推断 模 
型 .参数 设置 和 抽样 结果 显示 (表格 和 散 点 图 );@@ 生 成 抽样 结果 报告 或 统计 推断 
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图 21.11 SSSI 软件 界面 


SSSI 软件 的 下 载 , 详 细 说 明 、 具 体操 作 过 程 、 案 例 ,请 参照 联机 帮助 系统 或 登 
录 网 站 http://www. sssampling. com; 英 文 版 网 站 http://www. sssampling. arg, 
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本 章 简 介 在 本 书 空间 智能 分 析 各 章 ( 第 10 一 18 章 ) 用 到 的 软件 和 下 载 网 址 。 
各 软件 的 具体 使 用 步骤 已 在 各 章 中 结合 算 例 详 述 。 


22.1 Bayesian Belief Network: 贝 叶 斯 网 络 推 理 软件 


Bayesian belief network software 是 由 加 拿 大 Ualberta 大 学 Jie Cheng 博士 
开发 , 主要 用 于 生成 贝 叶 斯 网 络 。 下 载 地 址 http://www. cs. ualberta. ca/ 
~jcheng/bnsoft. htm, 

该 软件 共 分 为 以 下 3 个 部 分 。 

(1) BN PowerConstructor: 用 于 从 训练 数据 生成 贝 叶 斯 网 络 ( 图 22.1). 


Belief Network PowerConstructor — Introduction 


Welcome to PowerConstructor! 


This wizard constructs the Bayesian belief network 
structure automatically from a data set which 
contains discrete (categorical) data. You can also 
provide domain knowledge to help the constructor if 
you like. (An built-in discritizer is available for 


The wizard gathers information about the data set 
through 5 simple steps. If you want to change the 
information you gave in a previous step, you can 
always go back and change it. After you have 
provided all the necessary information click Finish 
button to let the system construct the belief 
network structure for you. Online help is available 
for each step. Enjoy it! 





图 22.1 PowerConstructor 界面 
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(2) BN PowerPredictor: 用 于 数据 的 建 模 、 分 类 以 及 预测 (图 22. 2). 






Belief Network PowerPredictor Cover 


— Belief Network PowerPredictor 
` Welcome to BN PowerPredictor! This system is designed for learning 
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图 22.2 PowerPredictor 界面 


(3) Data PreProcessor; 主要 进行 前 期 的 数据 处 理 , 以 用 于 BN PowerCon- 
structor, BN PowerPredictor 两 系统 (图 22. 3), 


3: Data Pre-processor Introduction 


Welcome to the Data PreProcessor! 


The Data PreProcessor is a tool used with BN 
PowerConstructor and BN PowerPredictor for 
pre-processing the training data. It has the 
following functionalities: 

1. Converting data from other desktop database 
formats to Microsoft JET/ Access (*.MDB) format (as 
required by BN PowerPredictor). 


2. Detecting and discretizing data fields that 
contains continuous data. 


3. Dividing the training data into internal training set 
and internal test set (as required by BN 
PowerPredictor). 


Please note that the test set (data to be 
classified) used in BN PowerPredictor does not 
need to be pre-processed. 


About | нер | Cancel | Next > | Pres | 


图 22.3  PreProcessor 界面 
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22.2 Yaahp: 层 次 分 析 软 件 


Yaahp 是 一 个 层次 分 析 法 可 视 化 建 模 与 计算 软件 ,用 于 帮助 用 户 使 用 层次 分 
析 法 解决 某 些 决策 问题 ,由 张建华 开发 并 免费 提供 (图 22.4) ,下载 地 址 http: // 
www. jeffzhang. cn/yaahp, 


沪 软 件 支持 中 英文 ,具有 可 视 化 构造 层次 模型 及 自动 判断 矩阵 一 致 性 等 功能 。 





图 22.4  Yaahp 主 界面 


22.3 ” SPSS; 数据 统计 软件 


SPSS 是 软件 英文 名 称 的 首 字母 缩写 ,原意 为 statistical package for the social 
sciences, 即 “社会 科学 统计 软件 包 ”。 但 是 随 着 SPSS 产品 服务 领域 的 扩大 和 服务 
深度 的 增加 , SPSS 公司 于 2000 年 将 英文 全 称 更 改 为 statistical product and 
service solutions, 意 为 “统计 产品 与 服务 解决 方案 ”( 图 22.5)。 软 件 网 址 
http://www. spss. com/software/? source— homepageS-hpzone-— nav. bar, 

SPSS 是 世界 上 最 早 的 统计 分 析 软 件 , 由 美国 斯 坦 福 大 学 的 3 位 研究 生 于 20 
世纪 60 年 代 末 研制 ,同时 成 立 了 SPSS AF]. %4 SPSS 软件 已 有 30 余年 的 成 长 
历史 ,其 用 户 分 布 于 通信 、 医 疗 , 银 行 .证 券 .保险 .制造 .商业 、 市 场 研究 .科研 教育 
等 多 个 领域 和 行业 。 
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SPSS 16.0 for 
Windows’ 


Ф 2002 SPSS paq All Ag потат 
Windows Ga grec Tacoma |М 
of Microsoh Corp. IE 





FA 22.5 SPSS16.0 for Windows 


SPSS 的 特点 在 于 :操作 简单 ,无需 编程 ,功能 多 样 ,方便 的 数据 接口 .灵活 的 功 
能 模块 组 合 。SPSS 的 基本 功能 (图 22. 6) 包 括 :数据 管理 ,统计 分 析 、 图 表 分 析 、 输 
出 管理 等 等 。SPSS 统计 分 析 过 程 包括 描述 性 统计 ,均值 比较 一 般 线 性 模型 ,相关 
分 析 、 回 归 分 析 、 对 数 线性 模型 . 聚 类 分 析 、 数 据 简 化 .生存 分 析 、 时 间 序 列 分 析 、 多 
重 响应 等 几 大 类 ,每 类 中 又 分 好 几 个 统计 过 程 ,比如 回归 分 析 中 又 分 线性 回归 分 
析 、 曲 线 估计 、Logistic 回归 、Probit 回归 、 加 权 估 计 、 两 阶段 最 小 二 乘法 、 非 线性 回 
归 等 多 个 统计 过 程 ,而 且 每 个 过 程 中 又 允许 用 户 选择 不 同 的 方法 及 参数 。SPSS 也 
有 专门 的 绘图 系统 ,可 以 根据 数据 绘制 各 种 图 形 。 








图 22.6 SPSS 操作 界面 
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22.4 Weka: 数 据 挖掘 软件 


МЕКА 的 全 名 是 怀 卡 托 智能 分 析 环 境 (Waikato environment for knowledge 
analysis) ,已 有 十 多 年 的 发 展 历史 (图 22. 7)。 它 是 一 种 基于 Java 的 开源 数据 挖掘 
软件 ,采用 GPLv2 授权 协议 。 同 时 WEKA 也 是 新 西 兰 独 有 的 一 种 鸟 名 ,而 МЕКА 
的 主要 开发 者 来 自 新 西 兰 。 软 件 下 载 网 引 http://www. cs. waikato. ac. nz/ml/weka, 
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图 22.7 WEKA 操作 界 面 


作为 一 个 公开 的 数据 挖掘 工作 平台 , МЕКА 集合 了 大 量 能 承担 数据 挖掘 任务 
的 机 器 学 习 算法 ,包括 对 数据 进行 预 处 理 , 分 类 ,回归 、 聚 类 .关联 规则 分 析 , 以 及 在 
交互 式 界面 上 可 视 化 数据 。 可 以 通过 查看 WEKA 的 源码 和 API 文档 来 实现 和 改 
进 各 种 数据 挖掘 算法 ,而 这 都 包含 在 WEKA 安装 包 中 。 在 МЕКА 中 集成 自己 的 
算法 甚至 借鉴 它 的 方法 实现 独特 的 数据 挖掘 工具 也 不 是 件 困难 的 事情 。WEKA 
系统 已 获得 广泛 的 认可 ,被 誉 为 数据 挖 气 和 机 器 学 习 历 史上 的 里 程 碑 , 是 现今 最 完 
备 的 数据 挖掘 工具 之 一 。 
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22.5 PSO/ACO2; 粒 子 群 算法 软件 


PSO/ ACO2 是 由 英国 -— 大 学 Nicholas Holden 开发 (图 22. 8) ,主要 用 于 粒 
子 群 方法 的 分 类 ,其 特点 在 于 添加 了 蚁 群 算法 用 以 对 类 别 变量 进行 处 理 ,简化 了 数 
据 预 处 理 。 软 件 通 过 对 数据 的 训练 ,最 终 形成 分 类 规则 。 软件 下 载 地 址 是 http; // 


sourceforge. net/projects/psoaco2, 
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图 22.8 PSO/ACO2 操作 界面 
22.6 MATLAB: 科 学 计算 软件 


MATLAB 是 一 个 高 性 能 的 科技 计算 软件 (图 22. 9) ,广泛 应 用 于 数学 计算 、 算 
法 开发 ,数学 建 模 ,系统 仿真 .数据 分 析 处 理 及 可 视 化 .科学 和 工程 绘图 .应 用 系统 
开发 。 当 前 它 的 使 用 范围 涵盖 了 工业 .电子 .医疗 .建筑 等 各 领域 . 下 载 网 址 是 


http: //www. mathworks. com, 
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图 22.9 MATLAB R2008b 
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MATLAB 是 英文 Matrix Laboratory (和 矩阵 实验 室 ) 的 缩写 ,最 早 是 由 
C. Moler 用 Fortran 语言 编写 的 ,用 来 方便 地 调用 LINPACK 和 EISPACK 矩阵 代 
数 软 件 包 的 程序 。 后 来 他 对 MATLAB 作 了 大 量 的 改进 。 现 在 MATLAB 提供 的 
工具 箱 (图 22. 10) 已 覆盖 信号 处 理 、 系 统 控制 ,统计 计算 ,优化 计算 、 神 经 网 络 、 小 
点 表现 在 :语言 简洁 紧凑 , 库 函 数 及 运算 符 丰富 、 兼 有 具 结 构 化 与 面向 对 象 编程 ,绘图 
功能 强大 ,丰富 的 工具 箱 、 源 程序 开放 等 。 
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图 22.10 MATLAB 操作 界面 


22.7 LIBSVM: 支 持 向 量 机 软件 


LIBSVM 是 台湾 大 学 林 智 仁 (Lin Chih-Jen) 副 教授 等 开发 设计 的 一 个 简单 、 
易于 使 用 且 提 供 免 费 下 载 的 SVM( 支 持 向 量 机 ) 软件 包 。 其 有 效 地 解决 了 分 类 问 
Bi CC-SVC, n-SVC) .回归 问题 (e-SVR 、n-SVR) 以 及 分 布 估计 (one-class-SVMD) 等 
问题 并 提供 多 种 核 函 数 进行 选择 。LIBSVM 不 仅 提 供 了 C+ 十 + 语言 的 算法 源 代 
码 ,而 且 还 提供 了 Python, Java, R, MATLAB 等 多 种 语言 的 接口 ,方便 了 研究 人 员 
的 使 用 。 软 件 可 通过 网 络 搜索 LIBSVM 下 载 。 
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BME( Bayesian Maximum Entropy) : 

Christakos(2000) 提 出 的 基于 时 空 相关 性 的 一 种 时 空 数据 插值 和 预报 方法 。 
贝 叶 斯 网 络 ( Bayesian Network , BN) : 

基于 概率 推理 的 图 形 化 网 络 ,将 多 变量 观测 数据 带 人 贝 叶 斯 公式 逐步 构造 形 
成 据 理 网 络 , 网 络 的 每 个 连接 反映 两 变量 之 间 的 推理 关系 ,并 附 有 概率 。 
边际 效益 (Marginal Benefit) : 

新 增 单位 投入 所 带 来 的 效益 。 
粗糙 集 (Rough Set): 

通过 概念 简约 ,从 数据 归纳 出 推理 规则 的 一 种 方法 。 根 据 数据 建立 决策 属性 ， 
对 条 件 属 性 进行 约 简 ,根据 约 简 生成 规则 ,使 用 规则 对 未 知 对 象 进行 预测 并 且 进 行 
误差 分 析 。 
地 理 加 权 回 归 (Geographically Weighted Regression,GWR): 

Fothringham 等 (1996) 提 出 的 系数 是 空间 坐标 函数 的 空间 回归 方程 。 
地 理 探测 器 (Geographical Detector) : 

Wang(2009) 提 出 的 对 空间 数据 进行 探测 的 一 种 方法 ,包括 风险 空间 定位 、 风 
险 因 子 识别 .因子 解释 力度 量 和 多 因子 交互 作用 分 解 四 个 统计 公式 。 
地 统计 学 : 

Matheron(1963) 提 出 的 基于 空间 变异 函数 (空间 自 相 关 的 一 种 形式 ) 的 空间 
连续 过 程 的 线性 插值 方法 ,也 称 Kriging。 
Getis G 统计 : 

Getis 与 Ord(1992) 提 出 的 对 全 局 是 否 存 在 空间 相关 性 进行 检验 的 一 个 统计 
公式 。 
Getis G, Local it: 

Ord 和 Getis(1995) 提 出 的 对 各 点 与 其 周围 是 否 存在 空间 相关 性 进行 检验 的 
一 个 统计 公式 。 
局 域 统计 (Local Statistics) : 

提取 数据 集 子 集 特征 的 方法 ， 
空间 抽样 (Spatial Sampling) : 

考虑 空间 相关 性 的 抽样 模型 。 
空间 抽样 三 明治 模型 (Sandwich Spatial Sampling) : 


+ 300 ° 空间 数据 分 析 教 各 





由 Wang(2002) 提 出 的 样本 估 值 及 其 误差 沿 样本 层 . 区 划 层 到 报告 单元 层 的 
传递 公式 ,该 模型 实现 了 用 较 少 样本 量 对 多 种 类 型 .多 个 报告 单元 同时 报告 的 
能 力 。 
空间 抽样 最 优 决 策 三 一 理论 (Trinity Theory of Optimal Sampling Choice) : 

由 Wang 等 (2009) 提 出 的 针对 不 同 地 表 类 型 ,选择 最 佳 抽样 和 统计 推断 公式 
的 理论 。 
空间 非 静态 (Spatial Non-Homogeneity) ) : 

统计 特征 随 空间 绝对 位 置 而 变化 的 空间 现象 。 例 如 ,属性 数学 期 望 值 随 空间 
位 置 而 变化 称 为 一 阶 空间 非 静 态 ; 协 方差 随 空间 位 置 而 变化 ,当然 也 随 两 点 相对 距 
离 而 变化 的 空间 现象 称 为 二 阶 空间 非 静 态 。 一 阶 空间 非 静 态 必然 导致 二 阶 空间 非 
静态 ;二 阶 空 间 非 静态 不 一 定 导 致 一 阶 空间 非 静 态 。 
空间 分 析 (Spatial Analysis) : 

针对 空间 分 布 数据 或 几何 图 形 的 分 析 方 法 ,考虑 空间 相关 性 和 异 质 性 。 
空间 回归 (Spatial Regression) ) : 

考虑 空间 相关 性 的 回归 方程 ,如 以 邻接 区 域 的 因 变 量 为 本 区 域 的 解释 变量 的 
回归 方程 。 
空间 静态 (Spatial Homogeneity) : 

统计 特征 不 随 空间 绝对 位 置 而 变化 的 空间 现象 。 例 如 ,属性 数学 期 望 值 不 随 
空间 位 置 而 变化 称 为 一 阶 空间 静态 ; 协 方 差 不 随 空间 位 置 而 变化 ,只 随 两 点 相对 距 
离 而 变化 的 空间 现象 称 为 二 阶 空间 静态 。 一 阶 空间 静态 不 一 定 导致 二 阶 空间 静 
态 ;二 阶 空间 静态 必然 要 求 一 阶 空间 静态 。 
空间 数据 {Spatial Data) : 

具有 空间 坐标 位 置 或 相对 距离 的 数据 。 
空间 统计 (Spatial Statistics) : 

考虑 空间 相关 性 的 统计 方法 ， 

S ja) AJA tt (Spatial Heterogeneity) : 

单 变 量 属性 值 存 在 不 同 区 域 之 间 的 差异 。 
空间 运筹 (Spatial Operation) ; 

对 空间 对 象 的 位 置 、 属 性 进行 调制 ,达到 目标 值 。 
空间 智能 计算 (Spatial Intelligent Computation) : 

将 智能 计算 方法 运用 于 空间 数据 ,具有 人 脑 信 息 处 理 过 程 的 某 些 特点 。 
空间 自 相 关 (Spatial Autocorrelation) : 

单 变量 空间 相距 两 点 值 之 间 的 关联 性 ， 

Kriging: 
见地 统计 学 。 





Kulldorf 时 空 扫描 统计 量 : 


由 Kulldorff(1997) 提 出 的 一 组 时 空 热点 探测 公式 ,将 实测 数据 探测 值 与 假设 
的 随机 事件 探测 值 相 比较 ,两 者 差距 超出 统计 显著 阔 值 则 判断 实际 分 布 为 热点 
区 域 。 
LISA it: 

lii, Local Moran’s I. 
Meta Modeling: 

Wang(2008) 提 出 的 统计 集成 分 析 框 架 , 也 是 一 种 基于 数据 的 系统 分 析 方 法 ， 
实现 基于 数据 的 空间 格局 -时 间 过 程 -驱动 力 联动 分 析 框 架 ，。 
Moran's 工 统计 : 

Moran(1950) 提 出 的 对 全 局 是 否 存在 空间 相关 性 进行 检验 的 一 个 统计 公式 。 
Moran’s I, Local 1+: 

Anselin(1995) 提 出 的 对 各 点 与 其 周围 是 否 存 在 空间 相关 性 进行 检验 的 一 个 
统计 公式 ,也 称 为 LISA, 即 Local Indicator of Spatial Association, 
全 局 统计 (Global Statistics) : 

提取 全 部 数据 集 特 征 的 统计 方法 。 
人 工 神经 网 络 (Artificial Neural Network, ANN) : 

人 工 神经 网 络 是 一 种 应 用 类 似 于 大 脑 神经 突 触 连 接 的 结构 进行 信息 处 理 的 数 
学 模型 ,是 一 种 特殊 的 非 线 性 迭代 回归 算法 ,直至 输出 与 期 望 输出 误差 小 到 可 接受 


ia] ffi. 
数据 挖掘 : 

基于 数据 挖掘 信息 和 知识 的 方法 , 比 统计 学 假设 更 少 。 运用 于 空间 数据 时 称 
作 空 间 数据 挖掘 。 


遗传 规划 (Genetic Program, GP) : 

基于 观测 数据 建立 非 线 性 模型 的 一 种 方法 。 在 一 个 由 多 个 简单 模型 集成 的 模 
型 库 中 ,通过 组 合 、 交 叉 、. 遗 传 .变异 .重组 等 计算 ,形成 由 几 个 简单 模型 组 合 形成 的 
一 个 复合 模型 可 以 较 好 地 拟 合 多 变量 观察 数据 。 
遗传 算法 GA (Genetic Algorithm, GA) : 

求 模型 参数 的 方法 。 给 定 模型 待 求 参数 组 的 一 组 初始 解 , 带 人 模型 输出 ,与 期 
望 输 出 之 偏差 ,通过 遗传 ,变异 等 处 理 ,得 到 一 组 校正 的 参数 值 ,重复 迭代 以 上 过 
E, IRA FI HES AL. 
支持 向 量 机 SVM (Support Vector Machine) : 

支持 向 量 机 是 由 Vanpik 领导 的 ATS. TBell 实验 室 研 究 小 组 在 1963 年 提出 
的 一 种 分 类 技术 。 将 低 维 空间 向 量 集 映射 到 高 维 空间 ,实现 最 大 限度 地 将 多 变量 
数据 分 开 。 不 同 的 核 函数 将 导致 不 同 的 SVM 算法 ， 
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